Бан на сайте при Get запросах парсинге

Se0mashines

Client
Регистрация
05.02.2012
Сообщения
209
Благодарностей
52
Баллы
28
Собираю информацию на авторитетном англ. сайте. За 2 работы недели посетил 40млн урл. .

Работает в 120 потоков, посещает в минуту 6к урл.
Прокси 350 штук (уже в бане у этого сайта)
Шаблон выполняется по кругу в цикле по 300 раз.
Get запросы без использования браузера.

Думаю взять 1к прокси, но боюсь что их тоже забанят, да и в первый день. Дайте пожалуйста годный совет.

Что это может быть? Ручной бан на сайте, или автоматический фаерволом на серваке?

Юзерагент без браузера работает? или нужно его задавать в шаге проекта?
Может отключить цикл, и по одному разу проект прогонять?

Вобщем буду рад любым советам по поводу блокировки.
 

Gfoblin

Client
Регистрация
30.05.2013
Сообщения
4 587
Благодарностей
1 014
Баллы
113
Я б за такое тоже забанил )
Может автоматом улетать... а может и ручками...
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
да тупо по IP банят наверн
я бы тоже забанил
40 миллионов урлов
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 450
Благодарностей
1 885
Баллы
113
Юзерагенты подставляются в Get запросах.
Но с такой скоростью обращаться к сайту....за такое конечно же должны банить все нормальные сайты.
 

botovod

Client
Регистрация
04.04.2014
Сообщения
170
Благодарностей
126
Баллы
43
попробуйте гугл бота юзерагентом прописать, может прокатит
 
  • Спасибо
Реакции: Se0mashines и rostonix

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113

Gfoblin

Client
Регистрация
30.05.2013
Сообщения
4 587
Благодарностей
1 014
Баллы
113

samsonnn

Client
Регистрация
02.06.2015
Сообщения
1 755
Благодарностей
1 431
Баллы
113
минут 10 назад перестали работать пост и гет запросы, вот мне интересно это у меня одного? или так же у всех?
 

ssXXXss

Client
Регистрация
23.12.2014
Сообщения
7 379
Благодарностей
2 041
Баллы
113

Se0mashines

Client
Регистрация
05.02.2012
Сообщения
209
Благодарностей
52
Баллы
28
Странно. Сбилась галка "текущий прокси проекта" в настройках Get запросов. Получается работало через одну ip-шку.

Вообще как то странно работает эта настройка. Если парсить GET запросами, но при этом включить "использовать браузер" в настройках проекта, то в Зеннопостере при выставленных правилах прокси - в инстансе, будет показываться что проект работает через прокси, все типо окей. Но это не так. Проверил в своих логах сервера.

В экшене "GET запросы" нужно обязательно указывать правило прокси.
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 714
Баллы
113
Да, конечно. Он же не через браузер работает
 

Darkoman

Client
Регистрация
17.03.2018
Сообщения
54
Благодарностей
7
Баллы
8

budora

Client
Регистрация
13.08.2012
Сообщения
831
Благодарностей
556
Баллы
93

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)