Подскажите как правильнее парсить сайт-каталог и складывать спаршенную информацию в csv файл?
К примеру (это только пример, мне не нужно парсить imdb) есть у нас такая страница, http://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth_1
Нужно парсить, к примеру - название фильма, категорию и продолжительность.
Как я себе представляю, это
Создаю регулярку на парсинг всех титлов, регулярку на парсинг всех категорий, и парсинг всех значений продолжительности. Потом как-то совмещаю их для каждого фильма свои значения, и уже потом сохраняю результат в csv вида
"название фильма1","категория1","продолжительность1"
"название фильма2","категория2","продолжительность2"
"название фильма3","категория3","продолжительность3"
Но что-то мне подсказывает что это не лучшее решение, направьте на путь истинный! )
К примеру (это только пример, мне не нужно парсить imdb) есть у нас такая страница, http://www.imdb.com/movies-in-theaters/?ref_=nv_mv_inth_1
Нужно парсить, к примеру - название фильма, категорию и продолжительность.
Как я себе представляю, это
Создаю регулярку на парсинг всех титлов, регулярку на парсинг всех категорий, и парсинг всех значений продолжительности. Потом как-то совмещаю их для каждого фильма свои значения, и уже потом сохраняю результат в csv вида
"название фильма1","категория1","продолжительность1"
"название фильма2","категория2","продолжительность2"
"название фильма3","категория3","продолжительность3"
Но что-то мне подсказывает что это не лучшее решение, направьте на путь истинный! )
Последнее редактирование: