Парсинг в объемном тексте

gevolushn

Известная личность
Регистрация
25.03.2019
Сообщения
518
Благодарностей
269
Баллы
63
Здравствуйте.
При парсинге регуляркой в объемном тексте, процесс занимает внушительное время (относитильно). Получаю get-запросом страницу, а оттуда вытягиваю нужные данные. Естественно мне нужно парсить не с одной страницы, а с пару тыщ.
Есть способ это сделать быстрее? Xpath, поиск по CSS...? Не смог ничего найти:bn:
Спасибо.
 

gevolushn

Известная личность
Регистрация
25.03.2019
Сообщения
518
Благодарностей
269
Баллы
63
Почему нельзя убрать префикс SOLVED? Отредактировал название блин...
 

WebBot

Client
Регистрация
04.04.2015
Сообщения
1 775
Благодарностей
1 393
Баллы
113
Возможно в тексте имеются признаки по которым можно вырезать значительнуые куски текста в которых совершенно точно нет искомых данных. Например, сначала страницы до какого-то места/тега и после какого-то места/тега до конца страницы искомые данные 100% не встречаются, поэтому эти куски можно удалить. А вот к куску страницы с нужнымии данными уже применить регулярки.

Ну и если нужно парсить тысячи страниц, то делать шаб многопоточным.
 
  • Спасибо
Реакции: gevolushn и Sergodjan

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 567
Благодарностей
9 184
Баллы
113
  • Спасибо
Реакции: gevolushn

gevolushn

Известная личность
Регистрация
25.03.2019
Сообщения
518
Благодарностей
269
Баллы
63
Возможно в тексте имеются признаки по которым можно вырезать значительнуые куски текста в которых совершенно точно нет искомых данных. Например, сначала страницы до какого-то места/тега и после какого-то места/тега до конца страницы искомые данные 100% не встречаются, поэтому эти куски можно удалить. А вот к куску страницы с нужнымии данными уже применить регулярки.

Ну и если нужно парсить тысячи страниц, то делать шаб многопоточным.
Попробую. Спасибо. А то 7-10 секунд на одну страничку это многа, а иногда и 20 секунд:ak:
P.S. Во многопотоке и планировал работать. Надеялся ускорить чуть-чуть процесс.
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)