Парсинг google - подводные камни

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Реакции
1
Баллы
8
Всем привет!
Работаю над шаблоном парсинга выдачи гугла.
Задача зайти только на первую страницу выдачи по кею и взять то что нужно.

Что нужно учесть, что бы гугл вместо "здравствуйте" не кидал рекапчу, но при этом юзать паблик прокси?
Понятно, что придется достаточно активно перебирать прокси. Если прокси с первого раза позволила зайти без капчи - можно настроить удаление прокси только, когда капча появится (естественно эмулируя человекоподобность).
Решать капчу по 5 минут ради 5 минутной работы шаблона - смысла не вижу.
Поэтому созрел небольшой список вопросов:

1 - Заморачиваться ли с юзерагентами?
2 - Нужны ли готовые профили?
3 - Прогревать ли профили с куками, если они нужны?
4 - Исключать ли какие то страны?
5 - Геолокацию с учетом прокси ставить ли?
6 - Что еще упускаю?

Главная цель зашел и сразу спарсил.

Заранее всех благодарю!
 
Вообще без заморочек парсю гуглю, тысяч 50 в сутки выпарсиваю на 10 потоках на 30 прокси (купленный паблик). Капчу не гадаю, нет смысла. Через время капча проходит.
 
  • Спасибо
Реакции: CAMOCBAJI
Спустя пару дней понял:

1 - Прокачка профилей и куков не имеет смысла (возможно я что то делаю не так)
2 - На платных проксях (proxy6) капчу требует прям сходу и каждые 2 минуты

Как вы работаете? Где берете нормальные прокси?
 
Ради интереса практически ручками качал один профиль почти час.
Ходил подолгу по сайтам, листал, гуглил.

Так вот с этого профиля капчу гугл просит значительно реже при любых проксях.
Без профиля капча херачит на каждый запрос в гугл + прокси, даже приличный через некоторое время в бан попадает.

Вот такие наблюдения.
 
много в сутки надо парсить?
 
  • Спасибо
Реакции: CAMOCBAJI
много в сутки надо парсить?
Примерно 20-50к запросов в сутки
Но стабильно и в течении долгого периода

Мне для начала и 10к хватит в сутки, в принципе. Парсинг только первой страницы.
 
Последнее редактирование:
пауза в 7-10 сек и каптчи будет мало. умножай скорость потоками.
После чего пауза?
Капча прилетает сразу на первом шаге. Даже с нагугленными профилями.
В одном круге поставил 5 запросов гуглу. Капчу показывает 1-2 раза за это время.
Между запросами пауза и эмуляция мыши.
 
Я вообще обнаглел, работаю на get запросах)
 
Я вообще обнаглел, работаю на get запросах)
Перебор мобильных проксей и нагуленных профилей с юзерагентами и футпринтами?
Я тоже так наверное могу.
Нужно именно с браузера со всем подгрузками и не мобильную версию.
 
Не, ЮА и футпринты - это сложно, вообще без эмуляции. Нагул тоже лень. Прокси как выше писал, 30 пабликов. Просто есть свои подходы, рассказать не могу по понятным причинам.
 
Гугл хорошо же парсится на проксях, так же на http запросах.
Есть у них и api платный, 5$ за 10к запросов, но выдача урезана. Если углубиться в токены этого api то можно парсить без лимитов и капч, но это уже исследования.
Возьми хороших проксей и парси на запросах.
Я парсю через api, но результаты моих исследований публиковать не буду. Там и так прижимать стали от моего безлимитного парсинга, что пришлось менять подход.
 
  • Спасибо
Реакции: CAMOCBAJI
Хороший вариант парсить не сам гугл , а его клоны. Многие гораздо проще и реже защищаются.
Клоны ещё больше защищаются, они то же через api и у них лимиты на запросы к гуглу
 
клон клону рознь ). хотя по 100к дейли я конечно не пробывал парсить
Примерно догадываюсь о каких «клонах» говоришь. Но они работают через апи гугла - это урезанная выдача. И лимиты у них, как и у других. А так нет ни каких «клонов» . А так конечно взял пулл проксей и парси на запросах хоть сколько нормальную выдачу гугла. Ни чего там нагугливать не надо он хорошо парсится
 
Примерно догадываюсь о каких «клонах» говоришь. Но они работают через апи гугла - это урезанная выдача. И лимиты у них, как и у других. А так нет ни каких «клонов» . А так конечно взял пулл проксей и парси на запросах хоть сколько нормальную выдачу гугла. Ни чего там нагугливать не надо он хорошо парсится
Не подгружает гугл на запросах то, что мне нужно.
Выше писал уже - только браузер.
 
Не подгружает гугл на запросах то, что мне нужно.
Выше писал уже - только браузер.
Да вроде всё подгружает, попробуй брать не source a dom страницы.
Да хоть в браузере. Просто дело в проксях. Забудь про индивидуальные прокси. Хотя можно парсить и на ipv6 shared, если сильно не юзают их под Гугл. Если 10к запросов в день, и это разбить на весь день , то примерно может хватить 100 проксей.
А так конечно нужно брать пулл проксей обновляемый баксов за 100 и спокойно парсить.
Пояснил бы что конкретно парсить, то может было бы проще ответить.
Индексацию - можно просто за копейки заказывать допустим в сеопульте.
Пф накрутить - это можно двумя get запросами сделать и не шариться по самому гуглу.
Сниппеты нужны - то тут да обычная версия.
Просто ссылки по ключам - я бы смотрел в сторону апи гугла
 
  • Спасибо
Реакции: CAMOCBAJI
Вообще без заморочек парсю гуглю, тысяч 50 в сутки выпарсиваю на 10 потоках на 30 прокси (купленный паблик). Капчу не гадаю, нет смысла. Через время капча проходит.
Хаха, сказочник
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)