Парсинг страницы с несколькими исключениями

xDESTROYx

Client
Регистрация
21.09.2019
Сообщения
149
Благодарностей
18
Баллы
18
Привет, подскажите как в экшене "парсить данные" сделать несколько исключений?
Сейчас вижу что можно задать только один вариант исключения
 
  • Спасибо
Реакции: udder

nicanil

Client
Регистрация
06.03.2016
Сообщения
2 242
Благодарностей
1 820
Баллы
113
Привет.
Речь о "Фильтровать результаты"? Если да, то там можно использовать регулярные варажения. И с помощью регулярки задать несколько вариантов исключений. Например ^(?i)(?!.*(апельсин|лиМоН|АвТомАТ)) - данное регулярное выражение исключит все элементы в которых есть одно из следующих слов - апельсин, лимон или автомат, независимо от регистра.
 
Последнее редактирование:

udder

Client
Регистрация
28.03.2017
Сообщения
618
Благодарностей
128
Баллы
43
несколько вариантов исключений. Например ^(?i)(?!.*(апельсин|лиМоН|АвТомАТ)) - данное регулярное выражение исключит все элементы в которых есть одно из следующих слов - апельсин, лимон или автомат, независимо от регистра.
Искал как фильтровать несколько вариантов исключений при парсинге, проверил в своем шаблон, не сработало, эта регулярка требует полного вхождения? Я паршу картинки, например из результатов хочу исключить строки, содержащие googleusercontent.com и cdninstagram.com
Во время парсинг в результирующий файл попадает ссылка

.googleusercontent.com/-emz3qBg13bE/VO7tmZHoYAI/AAAAAAAAAEU/4g0Z8iDoLk0czK_IWwZrcLHeen3hxh7QACJkC/s1600-w1000/&text=girls+gone+wild+videos+CHALET+GOURETTE+PYRENEES+INFO&rpt=simage&_x_tr_sl=en&_x_tr_tl=de&_x_tr_hl=ru

@nicanil :-)

Скажите, пожалуйста, можно ли фильтровать результат парсинга с помощью Regex по количеству слов?
Например, мне нужно из результатов парсинга удалить строки, в которых меньше двух слов?
 
Последнее редактирование:

nicanil

Client
Регистрация
06.03.2016
Сообщения
2 242
Благодарностей
1 820
Баллы
113
Во время парсинг в результирующий файл попадает ссылка
В настройках нужно выставить Regex :-)
86264

Скажите, пожалуйста, можно ли фильтровать результат парсинга с помощью Regex по количеству слов?
Например, мне нужно из результатов парсинга удалить строки, в которых меньше двух слов?
Попробуйте такое выражение - ^(?:\b\w+[^\w\r\n]*){4,}$. Цифра 4 - необходимое количество слов в строке.
 
  • Спасибо
Реакции: udder

udder

Client
Регистрация
28.03.2017
Сообщения
618
Благодарностей
128
Баллы
43
@nicanil
В настройках нужно выставить Regex :-)


Попробуйте такое выражение - ^(?:\b\w+[^\w\r\n]*){4,}$. Цифра 4 - необходимое количество слов в строке.
Отлично работает, при парсинге записывает строки где не меньше 4 слов на примере цифры 4, а возможно еще улучшить регулярку, и вырезать дополнительно все лишние символы, кроме ЗАПЯТЫХ?
Пример строк, которые я спарсил (тайтлы из выдачи яндекс)
88570

Antennes d'extérieur pour televiseur | Walmart Canada
Support de montage mural : WMB | LAIRD TECHNOLOGIES
ou Massage Attendre chapeaux ceremonie nice Devant toi...
Technologies d'antenne — Wikipédia.
Support d' antenne de remplacement Radiomaster TX16s
Catalogue de pièces | PDF | Télécommunications | Bourse de New-York...
antenne - Dictionnaire Anglais-Français WordReference.com
Support d' antenne VHF - 1810 | accessoire | Lowrance France
Guide rapide Teltonika RUT240 LTE conforme RoHS
AXIS POLE MOUNT EXCAM XPT

Хотелось бы числый текст без точек и таких символов - | — По сути только запятые оставить.
 

nicanil

Client
Регистрация
06.03.2016
Сообщения
2 242
Благодарностей
1 820
Баллы
113
а возможно еще улучшить регулярку, и вырезать дополнительно все лишние символы, кроме ЗАПЯТЫХ?
Если что-то нужно вырезать, то это уже через "Обработку действий".
 
  • Спасибо
Реакции: udder

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)