Парсинг title массово проблема

seowin

Client
Регистрация
02.05.2016
Сообщения
110
Благодарностей
9
Баллы
18
Нужно спарсить title сайтов массово.
Написал простой шаблон использующий get запрос и с одной регуляркой, но почему-то скорость через какое-то время сильно падает и потоки подвисают.
Сайты, у которых нужно парсить title, я предварительно проверил на 200 ОК, чтобы парсинг был быстрее.
Таймаут в кубике стоит 20, прокси не использую, браузер в проекте также не используется.

Подскажите, почему может быть так и что можно предпринять?
Ресурсов вроде хватает и стоит также галочка "Отслеживание ресурсов компьютера".
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 952
Благодарностей
4 376
Баллы
113
Screaming Frog гуляющий в паблике решит задачу в разы быстрее и проще.
 
  • Спасибо
Реакции: seowin

SergSh

Client
Регистрация
10.05.2017
Сообщения
541
Благодарностей
395
Баллы
63
Может браузер не отключен?
Или есть проверки по спискам в которые складываются результаты. Список растет и время проверки также.
 
  • Спасибо
Реакции: seowin

seowin

Client
Регистрация
02.05.2016
Сообщения
110
Благодарностей
9
Баллы
18
Astraport, а данный софт вроде больше подходит для анализа одного сайта?
Мне нужно прочекать у 2кк сайтов тайтл главной страницы, данный софт справится с этим?

SergSh, не, браузер точно выключен. Это видно в ПМ в настройках и в самой зенке.
Проверок больше нет никаких, просто берется первая строка из списка.
 

Astraport

Client
Регистрация
01.05.2015
Сообщения
4 952
Благодарностей
4 376
Баллы
113
Мне нужно прочекать у 2кк сайтов тайтл главной страницы, данный софт справится с этим?
Там есть режим List для множества сайтов, хотя не уверен, что справится с таким количеством.
Scrapebox точно справится. Webpage Meta Scraper бесплатный плагин. Сам софт платный, но очень нужный.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 173
Благодарностей
2 174
Баллы
113
Если поток долго работает с разношерстными сайтами без перезагрузки, то в настройках кубика запроса во вкладке "Дополнительно" отключите чекбокс «Использовать CookieContainer», а то его «забивает» множеством строк. Или делайте его C#-очистку периодически.
UPD: теоретически из того мусора нам нужна разве что кука от cloudflare.com, ибо много сайтов с ним, и с его кукой меньше веротяность капчу словить при активном парсинге. Но это не точно.
 
Последнее редактирование:
  • Спасибо
Реакции: SergSh и Astraport

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)