Помогите советом. ГЕТ шаблон жрет 100% проца

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
Хай.
Написал шаб, парсит выдачу, сначала написал с использованием браузера, так как была капча и в лом было возиться. Сейчас решил переписать, на гетах, урезал шаблона на треть где-то, убрал проверку капчи, так как на норм проксях оказалось что просто не выдает капчу.

Запустил шаблон на гетах, и результат. 1 поток работает в 2 раза быстрее. Думаю "оо, отлично".
Фигачу сразу 30 потоков, и машина начинает охреневать от нагрузки, уменьшаю потоки до 15, такая же ситуация.
Хотя на старый шаб с браузером на 15 потоках ест всего лишь 40-50% проца....

В шабе нет циклов, нет диких парсингов, вообще ничего сверхъестественного, обычная легкая парсилка.

Это че за на фиг такой? С чем может быть связано?

PS| даже 3 потока на гетах грузят проц на 30-40%. шок
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 641
Баллы
113
поставил галку "не использовать браузер"?
Сколько потоков на процесс?
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 994
Благодарностей
787
Баллы
113
у меня тоже такое было с одним сайтом, еси на других на гет-постах было по 150 потоков - 70% нагрузка на процессор, то на том сайте - один гет запрос - 3 потока - 90% нагрузка... я так и не понял в чём загвоздка
 

arhip1985

Client
Регистрация
31.10.2011
Сообщения
2 994
Благодарностей
787
Баллы
113
поставил галку "не использовать браузер"?
Сколько потоков на процесс?
так вроде - если поставил галку - не использовать браузер - галку на выделенный процесс - уже не поставишь, т.е. - количество потоков на процесс - это если инстансы браузерные поднимаются, и если без браузера - то эти настройки никак не влияют
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 685
Благодарностей
4 641
Баллы
113
так вроде - если поставил галку - не использовать браузер - галку на выделенный процесс - уже не поставишь, т.е. - количество потоков на процесс - это если инстансы браузерные поднимаются, и если без браузера - то эти настройки никак не влияют
спрашивал на случай, если бы в самом зп 1 поток стоял.
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
магия какая-то, остальные проекты пост геты ваще не жрут ничего... яндекс заколдованный
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
  • Спасибо
Реакции: doc

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
как потом это вычислить? там будет просто нереально много инфы, как трассировку обработать?
 
  • Спасибо
Реакции: GoodX

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
ДА вручную в блокноте смотришь отдельный файл по 1 потоку, и ищешь где крупный показатель времени, в вики по ссылке в предыдущем посте это: |9757
ну или регуляркой:
\|\d{4,}$
 
  • Спасибо
Реакции: GoodX

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
нашел, на выполнение регуляки уходит 2.7-3.1 секунды, это много. Немного подправил регулярку, стало чуть меньше 1.2 - 2.6 секунды, все равно много на потоках грузит проц.
может поможете, вот исходники

https://pastebin.com/cvJVuTKL - это гет запрос (огромный, на форум не влез :-) )

вытащить надо это:
Код:
ru.wikipedia.org/24smi.org/stuki-druki.com/www.kino-teatr.ru/russia.tv/www.peoples.ru/news.yandex.ru/diwis.ru/www.UznayVse.ru/http-wikipediya.ru/wiki2.org
юзаю вот такую регулярку на данный момент
Код:
(?<=\.net/favicon/).*?(?=\?color)
лагает видимо изза большого ответа в гете
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
скинь тупо весь шаблон, там ведь нет ничего секретного, можно в личку хоть.
 

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
Блин, ну там же на глаз видно что помогает решение с багами. Ты его хоть пробовал?
 
  • Спасибо
Реакции: backoff

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
Ну так хоть бы сказал что не смотрел, так как не понял, а то тупо проигнорил....
http://c2n.me/3OjDW8f

UPD: Хотя нет, в твоем случае лучше просто подправь свой кубик поиска кукисов на такое:
Код:
string get_cookie = project.Variables["get_info"].Value;
string get_cookie = System.Text.RegularExpressions.Regex.Replace(Test, @"[{}]", "");
var Cookie = string.Join("; ", Regex.Matches(get_cookie, @"(?<=Set-Cookie:\ ).*?(?=;)").Cast<Match>().Select(x=>x.Value));
return Cookie;
 
  • Спасибо
Реакции: backoff

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
Ну так хоть бы сказал что не смотрел
сорян, смотрел, но не сразу разобрался, спасибо, скорость парса сильно возросла.
а в чем прикол? какие-то теги удалились? так как сравнил ответы до и после, разница в 6 Кб

сейчас при 30 потоках нагрука 70%
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 183
Баллы
113
Удалились скобки {}. Вроде как их в комбинации с некоторыми символами зенка воспринимает как какие-то макросы свои старые, и долго эти участки изучает, вот и весь прикол.
 
  • Спасибо
Реакции: backoff

backoff

Client
Регистрация
20.04.2015
Сообщения
6 039
Благодарностей
6 470
Баллы
113
так и подумал :-)
но не думал что так просто )

в общем спасибо!
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)