Продаю парсер выдачи Bing на Get-запросах: ссылки + анкоры + сниппеты (поддержка прокси, куки)

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113

Пролог:
Bing занимает третье место в мире поисковиков (по данным netmarketshare.com), и остается весьма неплохим донором для массового парсинга с поддержкой глубоких настроек фильтрации. Капчу вводить не надо, просто меняем прокси.

Шаблон парсит только обычную текстовую выдачу, не картинки, не видео! Он работает на Get-запросах без запуска браузера. Это значит, что возможна работа в многопотоке без особой нагрузки на железо. Для применения всех фильтров и также для уменьшения вероятности бана шаблон использует передачу «Cookie» от запроса к запросу, а также делает настройку поиска через панель Бинг ( https://www.bing.com/account/general ) без входа в аккаунт.
Только таким методом получилось добиться главного для меня требования: «Выполнять мои поиски только на страницах, написанных на определенных языках». А то без жесткого указания языка (#5.4 во «Входных параметрах») если попадались случайно в базе ключи на других языках, либо без явного признака языка (например, ключ без слов: «1990»), то автоматом подтягивало из выдачи страницы на разных языках, что было неприемлемо.
Минус такой схемы: лишние пару секунд тратятся на настройку параметров поиска, и лишь потом идет парсинг ключа. Но под следующий ключ параметры уже не надо перенастраивать, они обнуляются только при смене прокси. Так что минус не большой.

ShadowBan:
Есть у ПС Bing (и не только) такой хитрый режим “ShadowBan”. Это когда он подозревает ваш IP в автоматическом парсинге, и не прямиков в лоб выдаёт капчу, или банит, а просто вместо нормального результата выдачи подсовывает вам кэшированные старые результаты в минимальном количестве (обычно <100).
Так что я придумал такой алгоритм:
Шаблон в самом начале при проверке прокси делает запрос случайным ВЧ-ключом, и если там меньше 100 результатов, то считает прокси «плохим» и меняет его. Потом перед началом работы шаблон проделывает еще кое-какие запросы, связанные с настройками парсинга и получением дополнительных «cookie» сервиса Bing. Таким методом парсинг начинается уже не с чистого листа, а этого уменьшает шансы бана в будущем.
Но этого оказалось мало, так как иногда ShadowBan приходит потом. Поэтому я добавил дополнительную проверку и во время парсинга.
Если и этого мало, то с помощью настройки #3.4 вы можете организовать сохранение ключей где мало результатов и в повторную обработку их пустить.

Планы:
Шаблон делал под себя для дорвейных дел. Поэтому если будущим покупателям надо будет внедрить в него актуальные поправки, то для таких обсуждений создан закрытый чат телеграмм. На основе ваших хотелок мною будет расширятся функционал с новыми обновлениями. Например, сейчас шаблону не хватает режима «Проект в проекте» для его интеграции в другие Zenno-комбайны. Если будут пожелания, то добавлю этот функционал.

Пример результата парсинга:
Парсил английские ключи по похуднеию. Результат залил на гугл-диск.









Запускать шаблон теоретически лучше не больше чем в ~100 потоков, или так чтобы нагрузка на ваш CPU не превышала 80%. У меня практика показала, что даже если и добавить больше потоков, то скорость обработки не увеличится. Хотя все зависит от режимов работы и мощности железа. Колебание скорости реальной работы очень легко анализировать по графику нагрузки сети (у меня в районе 20 мбит\секунду идет передача). Если вы видите, что после прибавления потоков график уже не растет, значит не смысла ставить больше, ибо достигнут физический предел.
Вот для понимания скриншот «Диспетчера задач» на Wondows 10, где по графику видно что нагрузка сети стабилизировалась на уровне ~10 мбит и не растет:
Да, есть полностью открытый и бесплатный шаблон в первом конкурсе статей:
Парсер Bing (от surrealmix)
  • Для поиска доноров под парсинг текстового контента.
  • Для мониторинга выдачи по разным ключам.
  • Для парсинга текстовых сниппетов под генерацию дорвеев.
Кто покупает шаблоны ZennoPoster, тот в курсе стандартных условий, которых придерживается большинство продавцов. Но все же продублирую для новичков:
Шаблон закрытого типа, а значит будет только запускаться в ZennoPoster или ZennoBox, но не в ProjectMaker. Привязка идет на одну почту-лицензию зенки без возможности пере-привязки. То есть вы можете и на нескольких ZennoPoster запускать на разных ПК одновременно шаблон. Но только при условии, что все они куплены на один и тот же профиль (почту-лицензию) в кабинете userarea.zennolab.com.
Если у вас нет ZennoPoster, то придется выписывать шаблон для ZennoBox, и тут мне нужна стандартная доплата +10$ для погашения комиссии сервиса по формированию ZennoBox-версии.

Видео:
...запишу в будущем может.

Цена: 40$
Контакты: личка форума, Telegram: orka13 (ссылка кликабельная, добавляйтесь по ней, а то могут быть мошенники с подобными никами), Skype: orkanavtica

Гарантия
: возврат средств (манибек) за шаблон в течении 14 дней после его получения (за вычетом комиссии платежных систем). Здесь проблем нет, лояльно отношусь к такому требованию, даже если шаблон на 100% рабочий был, и дело чисто во вкусах покупателя.
Бесплатная Trial-версия: любому форумчанину со стаусом Client готов выдать шаблон наперед без оплаты (триалка на 14 дней). Даже под зенобокс (оплата комиссии сервиса за мой счет).
Лицензия: вечная, шаблон будет закрыт и прикреплен к вашему Email (ID) Zennolab. То есть можете запускать одновременно и на разных ПК, если у вас купленно несколько копий Zennoposter. Если же Zennoposter отсутствует вовсе, то выпишу лицензию под Zennobox, но оплата комиссии сервиса тогда за ваш счет (+10$).
Поддержка: стараюсь обновлять парсер после каждых изменений в сервисе (они где-то раз в год случаются). Но иногда это затягивается на длительные сроки. Если же нужны индивидуальные консультации по первому запуску шаблона или ZennoPoster, так как вы совсем дуб-дубом и ничего не понимаете, то и это возможно: схема «TeamViewer + Skype», ценник: 3$/10 минут. Если я вдруг пропаду, или кардинально сменю вид деятельности то понятно, что никто поддерживать шаблон вместо меня не будет. Открою тогда исходники и дальше уже сами разбирайтесь.
 
Последнее редактирование:
  • Спасибо
Реакции: surrealmix

angel737

Client
Регистрация
07.02.2015
Сообщения
59
Благодарностей
31
Баллы
18
Приветствую.
Попросил у автора Шаблон для теста.
Под мои нужды, справляется хорошо.
* До этого руками выдёргивал нужные мне сайты, с трёх поисковиков: Гугл + Яндекс + Маил.ру,
решил попробовать этот шаблон, напарсил определённый % сайтов, которые я не смог найти с вышеупомянутых поисковиков, используя те же признаки и запросы.

Однозначно Рекомендую.
Для форумчан, напарсил для теста ( для примера ), Базу сайтов DLE, используя следующие признаки + запросы:

index.php?do=register" "регистрация"
index.php?do=register" "пароль"
index.php?do=register" "повторите пароль"
index.php?do=register" "Код безопасности"
index.php?do=register" "Введите код"
index.php?do=register" "Подтверждение кода безопасности"
index.php?do=register
index.php?do=feedback
index.php?do=stats
index.php?do=rules

Скрины:



и



Скачать Базу DLE:
https://yadi.sk/i/YkxzMIRS3TNXUn
или
https://cloud.mail.ru/public/8tXv/MKEem8Dig
или
https://mega.nz/#!QMImhJKT!nxutcSWScH-y-MS9nLPtIQbY3mp_bPMGHtftsTEkzeg
 
  • Спасибо
Реакции: ftbwork10 и orka13

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Присоединяюсь к благотворительной акции «Помощь Гордею (Zennolab! Поможем парню вместе!)».
Сейчас предлагаю до конца акции (30 апреля) на этот шаблон заниженную цену в 820 рублей (14 $). Для покупки надо:
  1. перевести указанную сумму на реквизиты из стартпоста темы о благотворительности.
  2. в той теме написать пост со скриншотом перевода этой суммы (конфиденциальные данные можно затереть).
  3. связаться со мной по контактам из старпоста этой темы, указать ссылку на пост, получить продукт.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Паршу сейчас активно выдачу этим шаблоном, и заметил некорректную работу в редких случаях. Исправил найденные недочеты в обновлении очередном:

Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.03 (03.09.2018 )
Подробнее:
Исправленные баги:
[*] При активации настройки «#5.1 Безопасный поиск (удаляет ADLT)» со значением «Отключен (OFF)» Bing вместо страницы выдачи стал выдавать страницу с подтверждением возраста, и парсер ошибочно считал, что у поисковой фразы нет результатов. Исправил прохождение этого этапа.
[*] Мелкие правки в общем алгоритме.

Для обновления владельцам ZennoPoster надо перекачать архив (по той ссылке, которую они получали после покупки) и извлечь оттуда файл «Bing_Serp_Parser_by_orka13_v_1.03.xmlz» в свою папку с шаблоном. Владельцам ZennoBox хватит просто перезапустить программу, «Входные параметры» могут при этом «сбросится».
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.04 (11.02.2019 )
Подробнее:
Добавлено:
[+] Один покупатель просил сделать возможность сохранения в отдельные файлы результаты для каждого ключа, где "имя файла"="фраза поиска", например: "фраза-поиска-1.txt", "фраза-поиска-2.txt". Так что добавил настройку #3.7.1 отвечающую за сохранение в таком формате.

Для обновления владельцам ZennoPoster надо перекачать архив (по той ссылке, которую они получали после покупки) и извлечь оттуда файл «Bing_Serp_Parser_by_orka13_v_1.04.xmlz» в свою папку с шаблоном. Владельцам ZennoBox хватит просто перезапустить программу, «Входные параметры» могут при этом «сбросится».
 
Последнее редактирование:

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.05 (26.01.2020 )
Добавил опцию по желанию одного из покупателей:
«#3.9.1 [IN_Clean_Strong_On] Очищать подсвечивание жирным ключевых слов (<b>, <strong>)»
Она по умолчанию включена. Отключать ее стоит если вы хотите выдернуть из выдачи дополнительные ключи в той формулировке как их в выдаче выделяет Bing.

Для обновления владельцам ZennoPoster надо перекачать архив (по той ссылке, которую они получали после покупки) и извлечь оттуда файл «Bing_Serp_Parser_by_orka13_v_1.04.xmlz» в свою папку с шаблоном. Владельцам ZennoBox хватит просто перезапустить программу, «Входные параметры» могут при этом «сбросится».
 
Последнее редактирование:

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.06 (25.02.2020 )
Подробнее:
Исправленные баги:
[*] В опции "#5.3 Язык интерфеса Bing" исправил ошибку в задании региона [Франция].
[*] Исправлен поиск похожих ключей (Similar). А то в него проскакивал текст с совершенно других блоков на странице если блока с похожими ключами не было.
[*] Исправил определение страницы с "0" результатов в выдаче. А то шаблон перебироал зря прокси в попытке добиться результатов.
Добавил опцию по желанию одного из покупателей:
«#3.16 [IN_ DebugMode] Писать в отдельный лог-файл «\Temp_data\DebugMode\TimeNow.html» полный HTML-код ответа сервера на наш запрос.»

Также подправил стартпост:
1) Поднял ценник.
2) Указал политику лицензии, гарантии, манибека, получения бесплатной триалки.
3) Создал в телеге группу для обсуждение хотелок и багов. Кому забыл скинуть ссылку-приглашение, то отпишитесь с тех контактов с которых покупку совершали.
 
Последнее редактирование:

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Забыл отписаться о последних правках:

Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.08 (17.05.2020 )
Добавлено:
[+] По просьбе пользователей теперь при активации опции «#3.6 [IN_Log_Table] Совместной таблицы с разделителем "String.Tab"» в таблице слева появился столбец с ключом поиска.

Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.07 (27.02.2020 )
Исправленные баги:
[*] Убрал из входных параметров вообще опцию «не использовать прокси» (#2.2 - 3). Ибо она была актуальна пару лет назад, когда шаблон только создавался и Бинг тогда без прокси можно было парсить в многопотоке и не боятся капчи и ShadowBan.
[*] Исправил игнорирование опции #4.3 ([IN_ShadowBan_2_On] Делать дополнительную проверку на ShadowBan во время парсинга).
[*] Другие мелкие правки.
 

orka13

Client
Регистрация
07.05.2015
Сообщения
2 177
Благодарностей
2 184
Баллы
113
Zennoposter парсер выдачи Bing на Get-запросах от orka13 1.09 (20.07.2020 )
[*] Была жалоба что парсер перестал собирать результаты. Как выявилось Бинг сделал незначительные правки в верстке, и это мешало распознать результат. Исправил.

Еще есть жалоба что слишком часто срабатывает отлов «ShadowBan». Если замечаете подобное, то отключите опцию #4.2 и #4.3. А я уже отпишусь как разберусь подробнее с этим.
UPD 26.07.2020: Воспроизвел. Бинг при голом первичном запросе без куки (на котором раньше хорошо детектился ShadowBan, если отдавалось немного результатов) теперь вообще не отдает результатов. Так что опцию №4.2 стоит отключать вообще сейчас в настройках шаблона. Я уберу ее в будущем. А 4.3 и 4.4 вроде как работают еще.
 
Последнее редактирование:

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)