Парсер DuckDuckGo

Регистрация
12.07.2014
Сообщения
916
Реакции
373
Баллы
63
duck-duck-logo.png
Всем салют!
Представляю простой многопоточный парсер поисковика DuckDuckGo на GET-запросах.
Шаблон может быть полезен для подготовки парсинга контента парсером на GET запросах от Orka13. Т.е. Парсим поисковик и дергаем ссылки на сайты по нужному ключу.

Все настройки парсера.
настройки парсера.png


Файлы и папки
Файлы и папки.png



Папка Data содержит файлы ключевиков и фильтров.
Filtr.txt – список признаков для фильтрации урл.
keywords.txt – ключи для парсинга.

Папка OUT – содержит файл со спарсеными ссылками.
Папка Прокси – содержит файл с прокси серверами формата:
socks5://Логин:Пароль@Адрес сервера:Порт

ParserDuckDuckGo.xmlz – мультипоточный шаблон

Логика работы
  1. Стартуем и берем ключевик если нет ключей то идем фильтровать ссылки.
  2. Берем прокси и проверяем скачкой заголовка страницы myip.ru.
  3. Парсим токен из поисковика.
  4. Проверяемся на пустой ГЕТ и ошибку выдачи.
  5. Качаем выдачу.
  6. Парсим ссылки.
  7. Обрабатываем скаченное.
  8. Парсим ссылку на следующую страницу.
  9. Качаем следующую страницу, GO TO 6 и так в цикле до срабатывания счетчика.

На этапе парсинга «следующих страниц» могут быть ошибки или сработает счетчик страниц, тогда поток завершает работу.

Ограничение по количеству ключей для парсинга в шаблоне не делал. Т.е. шаблон работает, пока не закончатся ключевики в списке. После этого идет фильтрация от не нужных ссылок и все финал.

Результат
Результат ссылки.png
 
Номер конкурса шаблонов
  1. Третий конкурс шаблонов
Уровень сложности
Средний
Категория
  1. Парсинг

Вложения

Последнее редактирование:
Однозначно буду голосовать за Вас, т.к для меня большая потребность получать урлы сайтов для последующего парсинга.
Вопрос, возможно ли реализовать Парсинг только результатов на русском языке?
upload_2019-2-26_19-42-55.png


Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.

upload_2019-2-26_19-53-55.png
 
Последнее редактирование:
  • Спасибо
Реакции: Сибиряк
Однозначно буду голосовать за Вас, т.к для меня большая потребность получать урлы сайтов для последующего парсинга.
Вопрос, возможно ли реализовать Парсинг только результатов на русском языке?
Посмотреть вложение 36575

Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.

Посмотреть вложение 36576
Без толку ставить страну россия все равно выдача под бурж
 
  • Спасибо
Реакции: Сибиряк
Протестировал, переменная tmp всегда пустая, от этого не получает ссылки. Хотя в переменной get есть информация о ссылках.
После вашего поста. Попробовал запросы на кириллице, хотя изначально парсер использовался на английском.
обновление 1.png


Чуть изменил шаблон как на скрине.
 

Вложения

Последнее редактирование:
  • Спасибо
Реакции: nesorer, udder и teodocomo
Здравствуйте. Возможно ли пользоваться вашим шаблоном через пул мобильных проксей, настроив его при помощи шаба который занял 1 место в 3 конкурсе шаблонов, если у меня зенка версии лайт в 1 поток?
Если нет, то сколько урл можно спарсить при помощи 1 прокси? Меня интересуют урл которые стоят на 30-100500 страницах поисковиков!?
И еще один вопрос, меня интересуют урл без http и www, чтобы использовать шаб из 1 конкурса по рассылке e-mail, как этого добиться?

С уважением, благодарю за внятный ответ!
 
Возможно ли пользоваться вашим шаблоном через пул мобильных проксей, настроив его при помощи шаба который занял 1 место в 3 конкурсе шаблонов, если у меня зенка версии лайт в 1 поток?
Да шаблону без разницы откуда прокси. Тут проблема в синхронизации смены IP адреса. Что бы парсер не работал в момент переподчинения. Т.е. надо или объединять в один шаб все или как то разруливать планировщиком.

Если нет, то сколько урл можно спарсить при помощи 1 прокси? Меня интересуют урл которые стоят на 30-100500 страницах поисковиков!?
Пока ПС не заблочит.))) ПС не отдают все ссылки. Гугл например на запрос отдает максимум 1000 кажется.

И еще один вопрос, меня интересуют урл без http и www, чтобы использовать шаб из 1 конкурса по рассылке e-mail, как этого добиться?
Вырезать регулярками. ссылка
В ПМ есть конструктор регулярок.
Тоже полезная тема, добавьте в закладки ссылка
 
А если я куплю в магазине 1 проксю socks5, сколько примерно можно спарсить урл с 1 прокси?
 
Ну вот я пробовал только что вручную собирать урлы, пс яндекс заблочила через 180 собранных урлов, вы ведь наверно пользовались своим шабом и есть какой-то опыт... Будьте добры, дайте статистику, нужны цифры.
 
Ну вот я пробовал только что вручную собирать урлы, пс яндекс заблочила через 180 собранных урлов, вы ведь наверно пользовались своим шабом и есть какой-то опыт... Будьте добры, дайте статистику, нужны цифры.
Я использую данный парсер для сбора урл и далее парсинга контента.
Обычно собираю 2-3 страницы с одного ключа.
Банов не было. Но опять же у меня 5-8 прокси в ротации.
Может это перестраховка. Но сделал так.
 
  • Спасибо
Реакции: Sambo7
Благодарю.
А вот смотрите, я по ключу собирал урлы, дощел до 60 стр. яши, пс заблочила... Она меня разблочит через какое то время, если да, то через какое?
Или ставить проксю и дальше?
 
Благодарю.
А вот смотрите, я по ключу собирал урлы, дощел до 60 стр. яши, пс заблочила... Она меня разблочит через какое то время, если да, то через какое?
Или ставить проксю и дальше?
ДА разблочит. Только когда хз.
Лучше сменить проксю, почистить куки и парсить.
 
А чтоб ПС не урезала выдачу, лучше заходить на сайт хотябы с 1 выдачи и пролистывать сайт вниз?
 
Столкнулся с проблемой, яндекс делает выдачу только до 65 страницы... А как искать урлы остальных сайтов?
 
Вместо 65 страницы в урле прописал 66... Яндекс ничего не нашел! Разве других вариантов нет?
 
Вместо 65 страницы в урле прописал 66.
1) Тут про duckduckgo - яндекса как такового тут нет, хотя и возможно использует его выдачу
2) Напишите лучше в личку, покажу на примере как работает

Разве других вариантов нет?
Полно, например каталог организаций спарсить
 
То что нужно.Грац.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)