- Регистрация
- 23.04.2010
- Сообщения
- 32
- Благодарностей
- 1
- Баллы
- 8
Здравствуйте,
Помогите советом, пожалуйста. Не могу разобраться как правильно сконструировать шаблон:
Задача
Спарсить на странице цену и параметры продукта с сохранением в csv-файл. Одно из условий - на каждой странице присутствует разное количество параметров.
К примеру:
На странице topills.com/order-viagra.html необходимо получить данные про наименование, вес, количество единиц в упаковке и стоимость продукта. А сохранять в csv-файл в таком виде:
Для каждого элемента я создал необходимую регулярку, но тут возникла проблема как сохранять полученные данные в столбик?
И если парсинг/сохранение наименования не вызывает проблем, то сохранение строк параметров (вес, стоимость и т.п.) с сохранением принадлежности вводит меня в ступор.
Регулярка для парсинга параметра quantity:
отдает 11 строк.
Регулярка для парсинга параметра price выдает такое же количество.
Вот как теперь сохранить полученные данные в столбик (чтоб было как в примере) я не знаю
Додумался до варианта парсить каждый элемент данных отдельно и, после, конструировать сложную команду сохранения результатов в файл. Но в таком случае мне придется для этой страницы делать минимум 22 регулярки! Плюс становится невозможным авто парсинг других страниц сайта, поскольку там совсем другое количество строк.
Буду безумно благодарен, если кто подскажет универсальное решение. К топику прикрепляю шаблон
Помогите советом, пожалуйста. Не могу разобраться как правильно сконструировать шаблон:
Задача
Спарсить на странице цену и параметры продукта с сохранением в csv-файл. Одно из условий - на каждой странице присутствует разное количество параметров.
К примеру:
На странице topills.com/order-viagra.html необходимо получить данные про наименование, вес, количество единиц в упаковке и стоимость продукта. А сохранять в csv-файл в таком виде:
Код:
Viagra;50mg;10 pills;99.00;http://www.topills.com/order-viagra.html
Viagra;50mg;20 pills;139.00;http://www.topills.com/order-viagra.html
...
Viagra;100mg;30 pills;335.00;http://www.topills.com/order-viagra.html
Viagra;100mg;40 pills;399.00;http://www.topills.com/order-viagra.html
И если парсинг/сохранение наименования не вызывает проблем, то сохранение строк параметров (вес, стоимость и т.п.) с сохранением принадлежности вводит меня в ступор.
Регулярка для парсинга параметра quantity:
Код:
(?<=\<TD class\=quantity\>)[\w\W]*?(?=\<\/TD\>)
Регулярка для парсинга параметра price выдает такое же количество.
Вот как теперь сохранить полученные данные в столбик (чтоб было как в примере) я не знаю
Додумался до варианта парсить каждый элемент данных отдельно и, после, конструировать сложную команду сохранения результатов в файл. Но в таком случае мне придется для этой страницы делать минимум 22 регулярки! Плюс становится невозможным авто парсинг других страниц сайта, поскольку там совсем другое количество строк.
Буду безумно благодарен, если кто подскажет универсальное решение. К топику прикрепляю шаблон
Вложения
-
4 КБ Просмотры: 580