Парсинг google - подводные камни

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
Всем привет!
Работаю над шаблоном парсинга выдачи гугла.
Задача зайти только на первую страницу выдачи по кею и взять то что нужно.

Что нужно учесть, что бы гугл вместо "здравствуйте" не кидал рекапчу, но при этом юзать паблик прокси?
Понятно, что придется достаточно активно перебирать прокси. Если прокси с первого раза позволила зайти без капчи - можно настроить удаление прокси только, когда капча появится (естественно эмулируя человекоподобность).
Решать капчу по 5 минут ради 5 минутной работы шаблона - смысла не вижу.
Поэтому созрел небольшой список вопросов:

1 - Заморачиваться ли с юзерагентами?
2 - Нужны ли готовые профили?
3 - Прогревать ли профили с куками, если они нужны?
4 - Исключать ли какие то страны?
5 - Геолокацию с учетом прокси ставить ли?
6 - Что еще упускаю?

Главная цель зашел и сразу спарсил.

Заранее всех благодарю!
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
420
Благодарностей
61
Баллы
28
Вообще без заморочек парсю гуглю, тысяч 50 в сутки выпарсиваю на 10 потоках на 30 прокси (купленный паблик). Капчу не гадаю, нет смысла. Через время капча проходит.
 
  • Спасибо
Реакции: CAMOCBAJI

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
Спустя пару дней понял:

1 - Прокачка профилей и куков не имеет смысла (возможно я что то делаю не так)
2 - На платных проксях (proxy6) капчу требует прям сходу и каждые 2 минуты

Как вы работаете? Где берете нормальные прокси?
 

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
Ради интереса практически ручками качал один профиль почти час.
Ходил подолгу по сайтам, листал, гуглил.

Так вот с этого профиля капчу гугл просит значительно реже при любых проксях.
Без профиля капча херачит на каждый запрос в гугл + прокси, даже приличный через некоторое время в бан попадает.

Вот такие наблюдения.
 

Alex101

Client
Регистрация
28.06.2018
Сообщения
231
Благодарностей
59
Баллы
28
много в сутки надо парсить?
 
  • Спасибо
Реакции: CAMOCBAJI

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
много в сутки надо парсить?
Примерно 20-50к запросов в сутки
Но стабильно и в течении долгого периода

Мне для начала и 10к хватит в сутки, в принципе. Парсинг только первой страницы.
 
Последнее редактирование:

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
пауза в 7-10 сек и каптчи будет мало. умножай скорость потоками.
После чего пауза?
Капча прилетает сразу на первом шаге. Даже с нагугленными профилями.
В одном круге поставил 5 запросов гуглу. Капчу показывает 1-2 раза за это время.
Между запросами пауза и эмуляция мыши.
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
420
Благодарностей
61
Баллы
28
Я вообще обнаглел, работаю на get запросах)
 

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
Я вообще обнаглел, работаю на get запросах)
Перебор мобильных проксей и нагуленных профилей с юзерагентами и футпринтами?
Я тоже так наверное могу.
Нужно именно с браузера со всем подгрузками и не мобильную версию.
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
420
Благодарностей
61
Баллы
28
Не, ЮА и футпринты - это сложно, вообще без эмуляции. Нагул тоже лень. Прокси как выше писал, 30 пабликов. Просто есть свои подходы, рассказать не могу по понятным причинам.
 

user100

Пользователь
Регистрация
13.12.2017
Сообщения
68
Благодарностей
17
Баллы
8
Гугл хорошо же парсится на проксях, так же на http запросах.
Есть у них и api платный, 5$ за 10к запросов, но выдача урезана. Если углубиться в токены этого api то можно парсить без лимитов и капч, но это уже исследования.
Возьми хороших проксей и парси на запросах.
Я парсю через api, но результаты моих исследований публиковать не буду. Там и так прижимать стали от моего безлимитного парсинга, что пришлось менять подход.
 
  • Спасибо
Реакции: CAMOCBAJI

izubr

Client
Регистрация
11.05.2011
Сообщения
506
Благодарностей
213
Баллы
43
Хороший вариант парсить не сам гугл , а его клоны. Многие гораздо проще и реже защищаются.
 
  • Спасибо
Реакции: CAMOCBAJI

user100

Пользователь
Регистрация
13.12.2017
Сообщения
68
Благодарностей
17
Баллы
8
Хороший вариант парсить не сам гугл , а его клоны. Многие гораздо проще и реже защищаются.
Клоны ещё больше защищаются, они то же через api и у них лимиты на запросы к гуглу
 

user100

Пользователь
Регистрация
13.12.2017
Сообщения
68
Благодарностей
17
Баллы
8
клон клону рознь ). хотя по 100к дейли я конечно не пробывал парсить
Примерно догадываюсь о каких «клонах» говоришь. Но они работают через апи гугла - это урезанная выдача. И лимиты у них, как и у других. А так нет ни каких «клонов» . А так конечно взял пулл проксей и парси на запросах хоть сколько нормальную выдачу гугла. Ни чего там нагугливать не надо он хорошо парсится
 

CAMOCBAJI

Client
Регистрация
30.09.2011
Сообщения
34
Благодарностей
1
Баллы
8
Примерно догадываюсь о каких «клонах» говоришь. Но они работают через апи гугла - это урезанная выдача. И лимиты у них, как и у других. А так нет ни каких «клонов» . А так конечно взял пулл проксей и парси на запросах хоть сколько нормальную выдачу гугла. Ни чего там нагугливать не надо он хорошо парсится
Не подгружает гугл на запросах то, что мне нужно.
Выше писал уже - только браузер.
 

infosimple

Client
Регистрация
01.01.2015
Сообщения
420
Благодарностей
61
Баллы
28
А что нужно?
 

user100

Пользователь
Регистрация
13.12.2017
Сообщения
68
Благодарностей
17
Баллы
8
Не подгружает гугл на запросах то, что мне нужно.
Выше писал уже - только браузер.
Да вроде всё подгружает, попробуй брать не source a dom страницы.
Да хоть в браузере. Просто дело в проксях. Забудь про индивидуальные прокси. Хотя можно парсить и на ipv6 shared, если сильно не юзают их под Гугл. Если 10к запросов в день, и это разбить на весь день , то примерно может хватить 100 проксей.
А так конечно нужно брать пулл проксей обновляемый баксов за 100 и спокойно парсить.
Пояснил бы что конкретно парсить, то может было бы проще ответить.
Индексацию - можно просто за копейки заказывать допустим в сеопульте.
Пф накрутить - это можно двумя get запросами сделать и не шариться по самому гуглу.
Сниппеты нужны - то тут да обычная версия.
Просто ссылки по ключам - я бы смотрел в сторону апи гугла
 
  • Спасибо
Реакции: CAMOCBAJI

malex

Client
Регистрация
28.12.2015
Сообщения
26
Благодарностей
1
Баллы
3
Вообще без заморочек парсю гуглю, тысяч 50 в сутки выпарсиваю на 10 потоках на 30 прокси (купленный паблик). Капчу не гадаю, нет смысла. Через время капча проходит.
Хаха, сказочник
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)