- Регистрация
- 12.07.2014
- Сообщения
- 916
- Благодарностей
- 373
- Баллы
- 63
Представляю простой многопоточный парсер поисковика DuckDuckGo на GET-запросах.
Шаблон может быть полезен для подготовки парсинга контента парсером на GET запросах от Orka13. Т.е. Парсим поисковик и дергаем ссылки на сайты по нужному ключу.
Все настройки парсера.
Файлы и папки
Папка Data содержит файлы ключевиков и фильтров.
Filtr.txt – список признаков для фильтрации урл.
keywords.txt – ключи для парсинга.
Папка OUT – содержит файл со спарсеными ссылками.
Папка Прокси – содержит файл с прокси серверами формата:
socks5://Логин:Пароль@Адрес сервера:Порт
ParserDuckDuckGo.xmlz – мультипоточный шаблон
Логика работы
- Стартуем и берем ключевик если нет ключей то идем фильтровать ссылки.
- Берем прокси и проверяем скачкой заголовка страницы myip.ru.
- Парсим токен из поисковика.
- Проверяемся на пустой ГЕТ и ошибку выдачи.
- Качаем выдачу.
- Парсим ссылки.
- Обрабатываем скаченное.
- Парсим ссылку на следующую страницу.
- Качаем следующую страницу, GO TO 6 и так в цикле до срабатывания счетчика.
На этапе парсинга «следующих страниц» могут быть ошибки или сработает счетчик страниц, тогда поток завершает работу.
Ограничение по количеству ключей для парсинга в шаблоне не делал. Т.е. шаблон работает, пока не закончатся ключевики в списке. После этого идет фильтрация от не нужных ссылок и все финал.
Результат
- Категория
- Парсинг
- Номер конкурса шаблонов
- Третий конкурс шаблонов
- Уровень сложности
- Средний
Вложения
-
85,2 КБ Просмотры: 451
Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...
Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.
Последнее редактирование: