Вопрос по парсингу от начинающего.

Mr-Grey

Client
Регистрация
03.02.2016
Сообщения
88
Благодарностей
6
Баллы
8
Необходимо спарсить товары по категориям в магазине мвидео.
Дошел до категории.
На странице 23 товара.
Пытаюсь создать регулярку (не силен, только начал тыкаться)
Условия получаются примерно такие
Перед искомым текстом всегда есть
Код:
<a href="/products/
После искомого текста
Код:
"
Как результат на выходе получаю 90 с лишним строк. Подскажите как создать правильно регулярку. Заранее благодарен, ногами не бить, я к вам на долго))
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
Необходимо спарсить товары по категориям в магазине мвидео.
Дошел до категории.
На странице 23 товара.
Пытаюсь создать регулярку (не силен, только начал тыкаться)
Условия получаются примерно такие
Перед искомым текстом всегда есть
Код:
<a href="/products/
После искомого текста
Код:
"
Как результат на выходе получаю 90 с лишним строк. Подскажите как создать правильно регулярку. Заранее благодарен, ногами не бить, я к вам на долго))
там много дублей, можно поступить просто - список с результатом почистить на дубли..
Операции над списком - > Удалить дубли..

PS: ну и еще убрать строки с вхождением #reviews
тоже Операции над списком - > Удалить строки содержащие #reviews

вот что у меня получилось:

upload_2016-2-3_17-45-17.png


upload_2016-2-3_17-46-34.png
 
Последнее редактирование:
  • Спасибо
Реакции: Mr-Grey

Mr-Grey

Client
Регистрация
03.02.2016
Сообщения
88
Благодарностей
6
Баллы
8
Черт! Премного благодарен! Пойду пробовать))
 

Mr-Grey

Client
Регистрация
03.02.2016
Сообщения
88
Благодарностей
6
Баллы
8
Вроде все как у вас сделал. Один фиг результатов гора. Может глянет кто? Или лучше скринами?
 

Вложения

Mr-Grey

Client
Регистрация
03.02.2016
Сообщения
88
Благодарностей
6
Баллы
8
там много дублей, можно поступить просто - список с результатом почистить на дубли..
Операции над списком - > Удалить дубли..

PS: ну и еще убрать строки с вхождением #reviews
тоже Операции над списком - > Удалить строки содержащие #reviews

вот что у меня получилось:

Посмотреть вложение 11544

Посмотреть вложение 11545
Регулярку Вы такую же оставили?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 442
Благодарностей
10 000
Баллы
113
Регулярку Вы такую же оставили?
регулярку такую использовал:
Код:
(?<=<a\ href="/products/)[\w\W]*?(?=")
хотел свой шаблон прикрепить к посту - не получилось чо й то..
ошибка вылазит..
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)