[ РЕШЕНО ] Парсер выдачи Google без браузера

BAZAg

Client
Регистрация
08.11.2015
Сообщения
1 915
Реакции
2 666
Баллы
113
Здравствуйте, разработчики!
Есть задача получать результаты выдачи с Google.
66740


Необходимо разобраться как собирать данные без браузера на POST/GET.
Не использовать аккаунты гугл, без распознавания каптчи, мобильных/индивидуальных проксей, без API google и других сервисов.

Интересует цена вопроса за открытый шаблон (вдруг у кого-то уже готовый есть).
Если кто-то сможет собрать такое решение - интересует время + цена.

Есть желающие решить эту задачу?
 
как это без капчи и без прокси ? гугл еще никто не нагнул, только он всем диктует свои условия :)
 
как это без капчи и без прокси ? гугл еще никто не нагнул, только он всем диктует свои условия :-)
Тут нужно проявить смекалку, дать свободу своему творческому потенциалу :-)
Без мобильных/индивидуальных проксей - нужен человек, который подберет грамотно запросы, подставит нужные куки по цепочке чтобы запрос прошел (а с нормальными прокси - "тонкие" познания не требуются). Хотя, не запрещается использовать публичные прокси, VPN-ы, tor (хотя, если человек не собирал запросы к гуглу - то это ему мало чем поможет).
Без каптчи - легко - если встретил каптчу - завершаем работу (другой поток делает 2-3 запроса на нужные левые странички, получив необходимые куки-параметры - и работа/попытка повторяется).
 
  • Спасибо
Реакции: Roman*
Мне необходимо только число указанное на скриншоте.

Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
 
  • Спасибо
Реакции: BAZAg
Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
почему офтоп какраз тема в том что гугл крутит как хочет)
 
  • Спасибо
Реакции: BAZAg
Если на основании этого числа Вы собираетесь делать какие то выводы - то не стоит.
Это, можно так сказать, некий усредненный результат, от части рандом.
У меня была задача собрать эту статку по нескольким десяткам тысяч ГСов на блогспоте, и в процессе "разработки" пришел к тому, что это число очень отдаленно отображает реальную картину.

Грубо говоря, на тех дорах было ровно 10к страниц на каждом.
А site: говорил, что на некоторых 15-25к результатов, и наоборот, гугл говорит о 120 страницах в индексе - а при постраничной проверке индекса всех 10к страниц - у нас 6к страниц в нем.

Сорри, за немного оффтоп
Вы ответили очень даже в тему! Спасибо!
Решение собирается для постраничной проверки индекса определенных страниц.
На основании полученных данных например с 10 ip - если хотя бы 10% (например, тестами точно будет выведено приблизительное значение и количество попыток проверки и интервал проверки одной странички) выдало хоть что-то - собрался делать вывод что страничка есть в индексе.
А потом... Потом эти данные будут сохраняться в базе например все проверки за последних 10 дней - и уже относительно этого можно будет строить какие-то предположения.
Но... Пока желающих поучаствовать в этом мероприятии нет (те что есть - не внушают мне доверия - не уверен что смогут потянуть такой проект).
 
Исполнитель найден.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)