Бан на сайте при Get запросах парсинге

  • Автор темы Автор темы Se0mashines
  • Дата начала Дата начала

Se0mashines

Client
Регистрация
05.02.2012
Сообщения
209
Реакции
52
Баллы
28
Собираю информацию на авторитетном англ. сайте. За 2 работы недели посетил 40млн урл. .

Работает в 120 потоков, посещает в минуту 6к урл.
Прокси 350 штук (уже в бане у этого сайта)
Шаблон выполняется по кругу в цикле по 300 раз.
Get запросы без использования браузера.

Думаю взять 1к прокси, но боюсь что их тоже забанят, да и в первый день. Дайте пожалуйста годный совет.

Что это может быть? Ручной бан на сайте, или автоматический фаерволом на серваке?

Юзерагент без браузера работает? или нужно его задавать в шаге проекта?
Может отключить цикл, и по одному разу проект прогонять?

Вобщем буду рад любым советам по поводу блокировки.
 
Я б за такое тоже забанил )
Может автоматом улетать... а может и ручками...
 
да тупо по IP банят наверн
я бы тоже забанил
40 миллионов урлов
 
Юзерагенты подставляются в Get запросах.
Но с такой скоростью обращаться к сайту....за такое конечно же должны банить все нормальные сайты.
 
попробуйте гугл бота юзерагентом прописать, может прокатит
 
  • Спасибо
Реакции: Se0mashines и rostonix
Странно. Сбилась галка "текущий прокси проекта" в настройках Get запросов. Получается работало через одну ip-шку.

Вообще как то странно работает эта настройка. Если парсить GET запросами, но при этом включить "использовать браузер" в настройках проекта, то в Зеннопостере при выставленных правилах прокси - в инстансе, будет показываться что проект работает через прокси, все типо окей. Но это не так. Проверил в своих логах сервера.

В экшене "GET запросы" нужно обязательно указывать правило прокси.
 
Да, конечно. Он же не через браузер работает
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)