- Регистрация
- 12.07.2014
- Сообщения
- 916
- Реакции
- 373
- Баллы
- 63
Представляю простой многопоточный парсер поисковика DuckDuckGo на GET-запросах.
Шаблон может быть полезен для подготовки парсинга контента парсером на GET запросах от Orka13. Т.е. Парсим поисковик и дергаем ссылки на сайты по нужному ключу.
Все настройки парсера.
Файлы и папки
Папка Data содержит файлы ключевиков и фильтров.
Filtr.txt – список признаков для фильтрации урл.
keywords.txt – ключи для парсинга.
Папка OUT – содержит файл со спарсеными ссылками.
Папка Прокси – содержит файл с прокси серверами формата:
socks5://Логин:Пароль@Адрес сервера:Порт
ParserDuckDuckGo.xmlz – мультипоточный шаблон
Логика работы
- Стартуем и берем ключевик если нет ключей то идем фильтровать ссылки.
- Берем прокси и проверяем скачкой заголовка страницы myip.ru.
- Парсим токен из поисковика.
- Проверяемся на пустой ГЕТ и ошибку выдачи.
- Качаем выдачу.
- Парсим ссылки.
- Обрабатываем скаченное.
- Парсим ссылку на следующую страницу.
- Качаем следующую страницу, GO TO 6 и так в цикле до срабатывания счетчика.
На этапе парсинга «следующих страниц» могут быть ошибки или сработает счетчик страниц, тогда поток завершает работу.
Ограничение по количеству ключей для парсинга в шаблоне не делал. Т.е. шаблон работает, пока не закончатся ключевики в списке. После этого идет фильтрация от не нужных ссылок и все финал.
Результат
- Номер конкурса шаблонов
- Третий конкурс шаблонов
- Уровень сложности
- Средний
- Категория
- Парсинг
Вложения
Последнее редактирование:



