- Регистрация
- 03.12.2020
- Сообщения
- 161
- Реакции
- 114
- Баллы
- 43
Всем привет. Шаблон создан, чтобы набраться опыта и накопить на лицензию ZennoPoster.
Шаблон сделан по запросу пользователя FAQBILL. Ему потребовался шаблон который смог бы загружать в браузере ссылки или домены из входного файла и проверять загруженное содержимое на наличие неких признаков, которые можно было бы задать во входных настройках шаблона. Например, чтобы отобрать из массы скачанных с https://www.icann.org/ доменов сайтов с формами обратной связи, или ссылками на регистрацию.
При помощи этого шаблона вполне можно отобрать по признакам сайты на разных движках:
Например:
А недавно мне просто понадобилось прочекать 57 тысяч доменов на присутствие ответа или парковку. То есть, надо было узнать, висят эти домены или там что-то есть. Что может быть проще, как задать шаблону признак "200 OK"
Шаблон на запросах получился довольно шустрым, поскольку в нем нет ничего лишнего.
Входные настройки просты:
На вход подается текстовый файл со списком доменов/ссылок. В поле Что ищем указывается признак. Можно выбрать файл с прокси.
Отдельного внимания заслуживает разве что галочка Добавлять попытки. Если она установлена, то в конце каждой итерации будет устанавливать количество попыток в ZennoPoster равное количеству строк во входном файле.
Вот карта этого шаблона:
Надо сказать, что для этого шаблона вообще не нужны прокси. Но на стадии проектирования я заложил в шаблон эту возможность, и решил, что для особо требовательных пользователей подобный функционал может пригодиться.
Результатом работы шаблона станут три файла.
Имя выходных файлов формируются из названия входного файла, режима работы и статуса проверки.
1. Имя файла_get_Found.txt - искомый текст обнаружен
2. Имя файла_get_Not_Found.txt - искомый текст не обнаружен
3. Имя файла_get_Error.txt - при загрузке этик ссылок произошла ошибка/сбой
На практике хватает чекера на запросах, однако для достижения максимальной достоверности, можно собрать все неудачные списки в один и прогнать через браузерную версию чекера, ведь в последнее время стало модно защищать сайты CloudFlare или еще каким-нибудь CDN, да и просто скрипт JS можно закрыть жертву от парсинга. В данном же случае, использование прокси и браузерной версии чекера решают эту задачу.
Отличается браузерная версия только установкой прокси и тем, что признак парсится из {-Page.Dom-}.
Всем успехов и удачи!
Конструктивная критика приветствуется!
Шаблон сделан по запросу пользователя FAQBILL. Ему потребовался шаблон который смог бы загружать в браузере ссылки или домены из входного файла и проверять загруженное содержимое на наличие неких признаков, которые можно было бы задать во входных настройках шаблона. Например, чтобы отобрать из массы скачанных с https://www.icann.org/ доменов сайтов с формами обратной связи, или ссылками на регистрацию.
При помощи этого шаблона вполне можно отобрать по признакам сайты на разных движках:
Например:
C#:
WordPress
/wp-content/themes/
Joomla
"Joomla! is Free Software"
"Powered by Joomla!"
"About Joomla!"
"Designed by JoomlArt.com
А недавно мне просто понадобилось прочекать 57 тысяч доменов на присутствие ответа или парковку. То есть, надо было узнать, висят эти домены или там что-то есть. Что может быть проще, как задать шаблону признак "200 OK"

Шаблон на запросах получился довольно шустрым, поскольку в нем нет ничего лишнего.
Входные настройки просты:
На вход подается текстовый файл со списком доменов/ссылок. В поле Что ищем указывается признак. Можно выбрать файл с прокси.
Отдельного внимания заслуживает разве что галочка Добавлять попытки. Если она установлена, то в конце каждой итерации будет устанавливать количество попыток в ZennoPoster равное количеству строк во входном файле.
Вот карта этого шаблона:
Надо сказать, что для этого шаблона вообще не нужны прокси. Но на стадии проектирования я заложил в шаблон эту возможность, и решил, что для особо требовательных пользователей подобный функционал может пригодиться.
Результатом работы шаблона станут три файла.
Имя выходных файлов формируются из названия входного файла, режима работы и статуса проверки.
1. Имя файла_get_Found.txt - искомый текст обнаружен
2. Имя файла_get_Not_Found.txt - искомый текст не обнаружен
3. Имя файла_get_Error.txt - при загрузке этик ссылок произошла ошибка/сбой
На практике хватает чекера на запросах, однако для достижения максимальной достоверности, можно собрать все неудачные списки в один и прогнать через браузерную версию чекера, ведь в последнее время стало модно защищать сайты CloudFlare или еще каким-нибудь CDN, да и просто скрипт JS можно закрыть жертву от парсинга. В данном же случае, использование прокси и браузерной версии чекера решают эту задачу.
Отличается браузерная версия только установкой прокси и тем, что признак парсится из {-Page.Dom-}.
Всем успехов и удачи!
Конструктивная критика приветствуется!
- Номер конкурса шаблонов
- Седьмой конкурс шаблонов
- Уровень сложности
- Лёгкий
- Категория
- Чекер
Вложения
Последнее редактирование модератором:





