Парсинг интернет магазина. Как лучше?

Другой

Client
Регистрация
09.12.2014
Сообщения
9
Благодарностей
6
Баллы
3
Здравствуйте, уважаемые форумчане. Хочу обратиться за помощью к более опытным пользователям программы. Решил поучиться на более сложном и объемном решении задачи, поэтому не пинайте сильно за плоскость мышления и неопытность.
1. Возможно ли распарсить вообще интернет магазин средствами Zenno?
Окей, целесообразно ли? Можно купить датакол, контентданлоадер, языки программирования подтянуть в конце концов. Делал ли кто-нибудь похожие вещи, или я просто трачу своё и ваши время? :an:

Вот пример на джокси http://joxi.ru/YmEkjpNHM08DA6 мне нужна 4 текстовых блока, картинка
2. Логику пока придумал только такую
*скачиваем стартовую страницу - пусть будет конкретный товар.
*Получаем регулярками нужные поля. Например, 4 регулярки - 4 поля. Цена+ три блока описания.
Как вытащить картинки из JS-слайдера? (Их может быть несколько)
* сохраняем их
*дальше идем по ссылкам рекурсивно. либо по списку урлов.

Верна ли логика?
У меня проблема возникла лишь с рег.выражениями - некоторые позиции зенно берет, а некоторые - нет.
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113
В целом логика правильная.
По картинкам - можно настроить либо CaptchaSaver для сохранения картинок на комп, либо выдёргивать прямые урлы на картинки и закачивать их через GET запросы.
По регуляркам - подбирайте, значит что то неправильно настроили.
 
  • Спасибо
Реакции: Другой

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
Неоднократно в Сети писали, что имея в своем распоряжении все 3 инструмента: датакол, контентданлоадер и зенку - спарсить можно все, что угодно!
Имею контентданлоадер и зенку - пока проблем с парсингом магазинов ни разу не было.
При этом, когда не хватает гибкости контентданлоадер, им дергаю ссылки на товары, а регулярками зенки выковыриваю то, что по-другому никак не берется.
Резюме: лучший результат достигается комбинацией всех инструментов!
 

Другой

Client
Регистрация
09.12.2014
Сообщения
9
Благодарностей
6
Баллы
3
Спасибо за ответы. Значит я на верном пути.
Думаю, чтобы выиграть время, качну контентданлоадер. Хотя, можно и зенкой собрать ссылки.

Затрудняюсь с сохранением информации.
У меня, исходя из примера выше - регулярка записывалась в список, список - в файл. В итоге получилось на 4 группы информации 4регулярок - 4 списка, 4 файла. Что-то мне подсказывает, что это плохой тон так организовывать данные.
Хочется видеть массив данных вида:, например,
категория;товар_наименование;цена; описание.
Т.е это - таблица. Но список в таблицу не загнать, отсюда, видимо, нужно регулярку писать в переменную, а переменные - в ячейки

здесь вариабл1 - сдвиг по строке, вариабл2- сдвиг по столбцам. Я "изобрел" многомерный массив? :-)

Придумал второй вариант
примерно так


так лучше?
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113
Естественно второй вариант куда лучше )

П.с. А мне зенки вполне хватает для организации любых парсингов. Уже очень много чего было успешно стянуто с инета одной зенкой.
 

Severip

Client
Регистрация
17.10.2013
Сообщения
346
Благодарностей
98
Баллы
28
Когда писал парсер разношерстных данных, то чтобы не парится с таблицами и прочим,
тупо получал значение регуляркой и писал его в переменную, в строчку с разделителем, полученную строку в текстовый файл, если значение отсутствовало, то просто ставил разделитель, типа:
значение1;значение2;;значение4
значение1;;значение3;значение4
Такой подход позволяет не парится с колонками в таблице, и добавлять любое количество значений в строку.
На выходе файл тупо импортируется в эксель и получается нужный результат.
З.Ы. Получается, как у Вас второй вариант, только гибкости больше.
 
  • Спасибо
Реакции: Другой

freekey

Client
Регистрация
20.09.2012
Сообщения
70
Благодарностей
8
Баллы
8
Главное, разделить на 2 проекта или более - один собирает ссылки, второй и последующие данные по ссылкам.
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113
Главное, разделить на 2 проекта или более - один собирает ссылки, второй и последующие данные по ссылкам.
И кстати не обязательно. Это легко делается в одном проекте. Главное правильно его настроить.
 

freekey

Client
Регистрация
20.09.2012
Сообщения
70
Благодарностей
8
Баллы
8
И кстати не обязательно. Это легко делается в одном проекте. Главное правильно его настроить.
Это когда ты уже матерый пользователь )) А по началу это такой убер-гемор, что лучше разделить на несколько составных частей.
Я до сих пор на сложных проектах начинаю с нескольких шаблонов, отрабатываю, а потом сгоняю все в кучу.
 
Последнее редактирование модератором:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)