- Регистрация
- 30.09.2019
- Сообщения
- 76
- Благодарностей
- 54
- Баллы
- 18
Всем Привет!
Предлагаю вашему вниманию шаблон по парсингу строк UserAgent с сайта myip.ms. Шаблон был сделан в свое время как часть другого большого проекта, но сейчас готов поделиться им со всеми желающими.
Шаблон выполнят 3 функции:
- может парсить актуальные UserAgent и сохранять их в файлы с разбивкой по типам Платформа/ОС/Браузер
- может сохранить статистку браузеров в отдельный файл xml
- может писать таймлайны – последовательность UserAgent при заходе на сайт
----------------------------------------
История появления шаблона, следующая (если кому интересно):
Итак, в свое время у меня возникла задача сделать так, чтобы статистика посетителей (боты Зеннопостера) на одном моем сайте выглядели максимально естественно. Ну т.е. были бы заходы с различных браузеров и устройств и выглядело это максимально правдоподобно. Рандомизация с которой ЗенноПостер создает новые профили меня не устроила. Потому как там часто то браузер Вивальди попадется, то ещё какая-то дичь.
Что же делать? – подумал я. На ум пришла идея - взять статистику посещений с какого-нибудь живого сайта в Интернете, который показывает UserAgent посетителя и на её основе сделать похожие заходы на свой сайт. После долгих часов Гуглинга был найден такой сайт - myip.ms. Возможно есть и другие сайты, но этот меня вполне устроил.
Статистика визитов выглядит следующим образом:
На сайте также есть много других полезных данных - в основном это всякая стата по использованию IP, Браузеров и многое другое. Сам сайт недружелюбен к тем, кто пытается его парисить, поэтому при первом заходе включается антибот защита. Замечено что при заходе с некоторых IP это просто кнопка, которую нужно нажать, при заходе с других IP выскакивает кнопка + антикапча. Шаблон решает и то и другое, в качестве антикапчи используется сервис CapMonsterCloud, если кому-то нужен другой сервис, то следует поменять его прямо в шаблоне.
Внешний вид шаблона следующий:
Основной кубик парсинга написан на c#, поэтому шаблон будет также интересен тем, кто хочет улучшить свои скилы в написании кода. Если кому интересно, то могу чуть позже добавить описание того, что делает основной кубик.
Настройки шаблона:
Настроек немного, в основном здесь задается, что должен делать шаблон с полученными данными:
Первый параметр сколько страниц с сайта парсить. На одной странице находится 50 строк, таким образом если поставить парсить 10 страниц, то будет напарсено 500 строк. Этого вполне хватает. Сам сайт после определенного количества запросов начнет писать, что вы исчерпали суточный лимит запросов. Поэтому нужно будет менять IP, но это уже в функционал шаблона не входит.
Параметр номер 2 – описание в конце
Параметр номер 3 - сохранять строки UserAgent в файлы с разбивкой по типам Платформа/ОС/Браузер. Результат работы шаблона в папке user-agents создаются файлы:
Параметр номер 4 – Запись таймлайнов. Таймлайны - это последовательность разных браузеров при заходе на сайт. Таймлайны можно записать в одном из двух форматов: в формате Платформа-ОС-Браузер, либо целиком значение UserAgent. В первом случае файл выглядит следующим образом:
Во втором следующим образом:
Как можно это использовать? Лично я это делаю следующим образом: генерирую большое количество профилей под разные браузеры самим ЗенноПостероми сохраняю их в папку. Затем беру записанный таймлайн и по коду Платформа-ОС-Браузер нахожу подходящий профиль, загружаю его и дальше делаю визит на сайт под этим профилем.
Можно также работать более топороно: взять таймлайн в формате номер 2, под каждую строчку генерировать любой профиль ЗенноПостером, затем в нем менять UserAgent, на тот что есть в файле.
И наконец, второй параметр - сохранить статистку браузеров в отдельный файл xml
Статистика сохранятся в файл statistics.xml следующего вида:
Значения в статистике абсолютные – т.е. увеличиваются при каждой работе шаблона. Из абсолютных при желании всегда можно пересчитать процентные.
Полученную статистику можно использовать на свое усмотрение.
Что с ней делаю я? Тут идут более сложные математические вычисления суть которых в том, что генерируется случайное число, далее на основе весовых коэффициентов под это число подбирается браузер. Ну т.е. весовой коэффициент у Windows-Chrome выше, чем, например, Android-YandexBrowser. Таким образом Windows-Chrome будет выпадать чаше. Далее как в примере выше генерирую большое количество профилей под разные браузеры самим ЗенноПостероми и сохраняю их в папку. Затем беру по коду Платформа-ОС-Браузер подходящий профиль, загружаю его и дальше делаю визит на сайт под этим профилем.
Установка
Необходимо скопировать файлы dll в папку ЗенноПостера - ExternalAssemblies:
[Путь к зеннопостеру]\ExternalAssemblies\
Если ЗенноПостер установлен в папку Program Files, то это папка вида (номер версии может отличаться):
C:\Program Files\ZennoLab\RU\ZennoPoster Standard\5.40.0.0\Progs\ExternalAssemblies\
Предлагаю вашему вниманию шаблон по парсингу строк UserAgent с сайта myip.ms. Шаблон был сделан в свое время как часть другого большого проекта, но сейчас готов поделиться им со всеми желающими.
Шаблон выполнят 3 функции:
- может парсить актуальные UserAgent и сохранять их в файлы с разбивкой по типам Платформа/ОС/Браузер
- может сохранить статистку браузеров в отдельный файл xml
- может писать таймлайны – последовательность UserAgent при заходе на сайт
----------------------------------------
История появления шаблона, следующая (если кому интересно):
Итак, в свое время у меня возникла задача сделать так, чтобы статистика посетителей (боты Зеннопостера) на одном моем сайте выглядели максимально естественно. Ну т.е. были бы заходы с различных браузеров и устройств и выглядело это максимально правдоподобно. Рандомизация с которой ЗенноПостер создает новые профили меня не устроила. Потому как там часто то браузер Вивальди попадется, то ещё какая-то дичь.
Что же делать? – подумал я. На ум пришла идея - взять статистику посещений с какого-нибудь живого сайта в Интернете, который показывает UserAgent посетителя и на её основе сделать похожие заходы на свой сайт. После долгих часов Гуглинга был найден такой сайт - myip.ms. Возможно есть и другие сайты, но этот меня вполне устроил.
Статистика визитов выглядит следующим образом:
На сайте также есть много других полезных данных - в основном это всякая стата по использованию IP, Браузеров и многое другое. Сам сайт недружелюбен к тем, кто пытается его парисить, поэтому при первом заходе включается антибот защита. Замечено что при заходе с некоторых IP это просто кнопка, которую нужно нажать, при заходе с других IP выскакивает кнопка + антикапча. Шаблон решает и то и другое, в качестве антикапчи используется сервис CapMonsterCloud, если кому-то нужен другой сервис, то следует поменять его прямо в шаблоне.
Внешний вид шаблона следующий:
Основной кубик парсинга написан на c#, поэтому шаблон будет также интересен тем, кто хочет улучшить свои скилы в написании кода. Если кому интересно, то могу чуть позже добавить описание того, что делает основной кубик.
Настройки шаблона:
Настроек немного, в основном здесь задается, что должен делать шаблон с полученными данными:
Первый параметр сколько страниц с сайта парсить. На одной странице находится 50 строк, таким образом если поставить парсить 10 страниц, то будет напарсено 500 строк. Этого вполне хватает. Сам сайт после определенного количества запросов начнет писать, что вы исчерпали суточный лимит запросов. Поэтому нужно будет менять IP, но это уже в функционал шаблона не входит.
Параметр номер 2 – описание в конце
Параметр номер 3 - сохранять строки UserAgent в файлы с разбивкой по типам Платформа/ОС/Браузер. Результат работы шаблона в папке user-agents создаются файлы:
Параметр номер 4 – Запись таймлайнов. Таймлайны - это последовательность разных браузеров при заходе на сайт. Таймлайны можно записать в одном из двух форматов: в формате Платформа-ОС-Браузер, либо целиком значение UserAgent. В первом случае файл выглядит следующим образом:
Во втором следующим образом:
Как можно это использовать? Лично я это делаю следующим образом: генерирую большое количество профилей под разные браузеры самим ЗенноПостероми сохраняю их в папку. Затем беру записанный таймлайн и по коду Платформа-ОС-Браузер нахожу подходящий профиль, загружаю его и дальше делаю визит на сайт под этим профилем.
Можно также работать более топороно: взять таймлайн в формате номер 2, под каждую строчку генерировать любой профиль ЗенноПостером, затем в нем менять UserAgent, на тот что есть в файле.
И наконец, второй параметр - сохранить статистку браузеров в отдельный файл xml
Статистика сохранятся в файл statistics.xml следующего вида:
Значения в статистике абсолютные – т.е. увеличиваются при каждой работе шаблона. Из абсолютных при желании всегда можно пересчитать процентные.
Полученную статистику можно использовать на свое усмотрение.
Что с ней делаю я? Тут идут более сложные математические вычисления суть которых в том, что генерируется случайное число, далее на основе весовых коэффициентов под это число подбирается браузер. Ну т.е. весовой коэффициент у Windows-Chrome выше, чем, например, Android-YandexBrowser. Таким образом Windows-Chrome будет выпадать чаше. Далее как в примере выше генерирую большое количество профилей под разные браузеры самим ЗенноПостероми и сохраняю их в папку. Затем беру по коду Платформа-ОС-Браузер подходящий профиль, загружаю его и дальше делаю визит на сайт под этим профилем.
Установка
Необходимо скопировать файлы dll в папку ЗенноПостера - ExternalAssemblies:
[Путь к зеннопостеру]\ExternalAssemblies\
Если ЗенноПостер установлен в папку Program Files, то это папка вида (номер версии может отличаться):
C:\Program Files\ZennoLab\RU\ZennoPoster Standard\5.40.0.0\Progs\ExternalAssemblies\
- Категория
- Парсинг
- Номер конкурса шаблонов
- Пятый конкурс шаблонов
- Уровень сложности
- Продвинутый
Вложения
-
96,8 КБ Просмотры: 705
-
28,4 КБ Просмотры: 630
Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...
Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.