Парсер подсказок поисковика Google

  • Автор темы Автор темы Hitachi
  • Дата начала Дата начала
Название тестового шаблона
google парсер подсказок test

Hitachi

Creators Template
Регистрация
25.09.2019
Сообщения
384
Реакции
348
Баллы
63
Описание

Шаблон переходит на сайт google.com, вводит поисковой запрос.
Если страница не грузится - меняет прокси, начинает обработку запроса сначала.

Если всё в порядке - парсит все появившиеся подсказки во временный список.
Проверяет, не совпадают ли подсказки с добавленными ранее (для первого запроса с пустой строкой).
Если не совпадают - переносит их в основной список.
Далее получает букву из алфавита, вводит новый запрос в виде "запрос _пробел_буква", снова парсит все подсказки таким же образом.

Когда обработаны все буквы для текущего запроса, список переносится в таблицу, таблица сохраняется в файл.
Шаблон переходит к следующему запросу, если он есть.


Как пользоваться?

Во входных настройках ввести поисковые запросы (один или несколько).
Для работы через прокси, добавить их в файл proxy.txt.
Результаты сохраняются в папку Results в .csv таблицу с уникальным именем "запрос_дата_время".
 
Категория
  1. Парсинг
  2. SEO
Тип шаблона
Открытый
Многопоточность
Нет

Вложения

Последнее редактирование:
  • Спасибо
Реакции: Сибиряк и JanCarlo
Описание

Шаблон переходит на сайт google.com, вводит поисковой запрос.
Если страница не грузится - меняет прокси, начинает обработку запроса сначала.

Если всё в порядке - парсит все появившиеся подсказки во временный список.
Проверяет, не совпадают ли подсказки с добавленными ранее (для первого запроса с пустой строкой).
Если не совпадают - переносит их в основной список.
Далее получает букву из алфавита, вводит новый запрос в виде "запрос _пробел_буква", снова парсит все подсказки таким же образом.

Когда обработаны все буквы для текущего запроса, список переносится в таблицу, таблица сохраняется в файл.
Шаблон переходит к следующему запросу, если он есть.


Как пользоваться?

Во входных настройках ввести поисковые запросы (один или несколько).
Для работы через прокси, добавить их в файл proxy.txt.
Результаты сохраняются в папку Results в .csv таблицу с уникальным именем "запрос_дата_время".
Не могли бы вы перепроверить шаблон? На кубике получение значения innerhtml ничего не собирается, возможно regex устарел?
 
Не могли бы вы перепроверить шаблон? На кубике получение значения innerhtml ничего не собирается, возможно regex устарел?

Этот кубик имеете в виду? У меня он всё правильно собирает.
Если напишете подробнее о проблеме - попробуем разобраться

44654
 
  • Спасибо
Реакции: JanCarlo
Этот кубик имеете в виду? У меня он всё правильно собирает.
Если напишете подробнее о проблеме - попробуем разобраться

Посмотреть вложение 44654
Чуть позже чекну еще раз. А скажите пожалуйста, как сделать переключение по найденым страницам в поисковой выдаче через get запрос? Собственно я делаю такой же шаблон как и у вас - поиск по фразе, парсим страницу, берем следующую - парсим и так до конца.
Дело в том, что я создал гет запрос на поиск по фразе, яндекс мне отдал благополучно ответ первой страницы и я ее спарсил, а вот на вторую страницу я гет запросом никак не могу перейти хотя и передаю параметр =p1. При передаче параметра скажем второй, третей страницы и т.д - мне яндекс все время возвращает перву страницу. Куки контейнер разумеется использую, подскажите, может быть знаете, что там еще надо предварительно из заголовков спарсить что бы передавать в запросе для перехода по страницам?
 
Чуть позже чекну еще раз. А скажите пожалуйста, как сделать переключение по найденым страницам в поисковой выдаче через get запрос? Собственно я делаю такой же шаблон как и у вас - поиск по фразе, парсим страницу, берем следующую - парсим и так до конца.
Дело в том, что я создал гет запрос на поиск по фразе, яндекс мне отдал благополучно ответ первой страницы и я ее спарсил, а вот на вторую страницу я гет запросом никак не могу перейти хотя и передаю параметр =p1. При передаче параметра скажем второй, третей страницы и т.д - мне яндекс все время возвращает перву страницу. Куки контейнер разумеется использую, подскажите, может быть знаете, что там еще надо предварительно из заголовков спарсить что бы передавать в запросе для перехода по страницам?

А как именно get-запрос формируете? Как выглядит url?
Сейчас попробовал получить первую и вторую страницу яндекса - отдаёт обе, содержимое отличается
 
  • Спасибо
Реакции: JanCarlo
А как именно get-запрос формируете? Как выглядит url?
Сейчас попробовал получить первую и вторую страницу яндекса - отдаёт обе, содержимое отличается
Вот так, прикрепил ниже, я предварительно выпаршиваю параметр LR который при поиске используется - это самый первый кубик, вторым я делю поисковой запрос вместе с LR параметром, а вот переход на след страницу (последний кубик) не работает, вернее возвращает ответ с первой же страницы =(
 

Вложения

Вот так, прикрепил ниже, я предварительно выпаршиваю параметр LR который при поиске используется - это самый первый кубик, вторым я делю поисковой запрос вместе с LR параметром, а вот переход на след страницу (последний кубик) не работает, вернее возвращает ответ с первой же страницы =(

В последнем get-запросе перед p= должен быть знак &

44672
 
  • Спасибо
Реакции: JanCarlo
@Hitachi
А не подскажете, как надо отправлять ответ на капчу запросом для яндеса?
Ответ на капчу я получил, а вот отправить не могу, 404 ошибка постоянно приходит =(
вот это оригинальный через браузер запрос
5841a4c485d4aecc75b527368dda9710.png


параметр key спарсил,
параметр retpath тоже,
suggest_reqid вроде бы тоже, но ответ не доставляется яндексу =(
 
  • Спасибо
Реакции: alex1988
@Hitachi
А не подскажете, как надо отправлять ответ на капчу запросом для яндеса?
Ответ на капчу я получил, а вот отправить не могу, 404 ошибка постоянно приходит =(
вот это оригинальный через браузер запрос
5841a4c485d4aecc75b527368dda9710.png


параметр key спарсил,
параметр retpath тоже,
suggest_reqid вроде бы тоже, но ответ не доставляется яндексу =(

Капчу через запросы решать не пробовал. КапМонстр как-то удобнее для этих целей)
 
  • Спасибо
Реакции: JanCarlo
автор, можете пожалуйста скинуть свой скайп? есть несколько вопросов, не бесплатно
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)