Всем привет!
Работаю над шаблоном парсинга выдачи гугла.
Задача зайти только на первую страницу выдачи по кею и взять то что нужно.
Что нужно учесть, что бы гугл вместо "здравствуйте" не кидал рекапчу, но при этом юзать паблик прокси?
Понятно, что придется достаточно активно перебирать прокси. Если прокси с первого раза позволила зайти без капчи - можно настроить удаление прокси только, когда капча появится (естественно эмулируя человекоподобность).
Решать капчу по 5 минут ради 5 минутной работы шаблона - смысла не вижу.
Поэтому созрел небольшой список вопросов:
1 - Заморачиваться ли с юзерагентами?
2 - Нужны ли готовые профили?
3 - Прогревать ли профили с куками, если они нужны?
4 - Исключать ли какие то страны?
5 - Геолокацию с учетом прокси ставить ли?
6 - Что еще упускаю?
Главная цель зашел и сразу спарсил.
Заранее всех благодарю!
Работаю над шаблоном парсинга выдачи гугла.
Задача зайти только на первую страницу выдачи по кею и взять то что нужно.
Что нужно учесть, что бы гугл вместо "здравствуйте" не кидал рекапчу, но при этом юзать паблик прокси?
Понятно, что придется достаточно активно перебирать прокси. Если прокси с первого раза позволила зайти без капчи - можно настроить удаление прокси только, когда капча появится (естественно эмулируя человекоподобность).
Решать капчу по 5 минут ради 5 минутной работы шаблона - смысла не вижу.
Поэтому созрел небольшой список вопросов:
1 - Заморачиваться ли с юзерагентами?
2 - Нужны ли готовые профили?
3 - Прогревать ли профили с куками, если они нужны?
4 - Исключать ли какие то страны?
5 - Геолокацию с учетом прокси ставить ли?
6 - Что еще упускаю?
Главная цель зашел и сразу спарсил.
Заранее всех благодарю!