Всем привет! Есть список сайтов, цель шаба - выпарсить с них данные. Проблема: запускаю в многопотоке, через минуту уже проц забитый. Дело не в регулярках, тесты показали, что проц грузит и чисто без них, с одним экшеном гет запроса, то есть это он создает такую нагрузку. Как пониманию, попадаются "жирные" на код страницы, что в один поток работают норм, но в многопотоке, когда таких несколько и они пересекаются - начинает все идти по $$$.
Какие вижу варианты решений:
1. Узнать размер страницы заранее, но по "только заголовки" инфо есть не всегда, поэтому не вариант.
2. Подключать через api левые сервисы по анализу сайтов на размер страницы - тоже особо не впечатляет
2. Перевести гет запрос в c# код с доработкой, например, установить лимит на загрузку (хотя уменьшение таймаута только ускорило процесс забивки проца) кода страницы
3. Установить лимит на загрузку проца потоком, но это что то из фантастики
Гемор от траблы уже достаточно давно. Пока печальный выходы - либо в один поток, но гет, либо подключать браузер
Какие вижу варианты решений:
1. Узнать размер страницы заранее, но по "только заголовки" инфо есть не всегда, поэтому не вариант.
2. Подключать через api левые сервисы по анализу сайтов на размер страницы - тоже особо не впечатляет
2. Перевести гет запрос в c# код с доработкой, например, установить лимит на загрузку (хотя уменьшение таймаута только ускорило процесс забивки проца) кода страницы
3. Установить лимит на загрузку проца потоком, но это что то из фантастики
Гемор от траблы уже достаточно давно. Пока печальный выходы - либо в один поток, но гет, либо подключать браузер