- Регистрация
- 07.05.2015
- Сообщения
- 2 177
- Благодарностей
- 2 184
- Баллы
- 113
Bing занимает третье место в мире поисковиков (по данным netmarketshare.com), и остается весьма неплохим донором для массового парсинга с поддержкой глубоких настроек фильтрации. Капчу вводить не надо, просто меняем прокси.
Шаблон парсит только обычную текстовую выдачу, не картинки, не видео! Он работает на Get-запросах без запуска браузера. Это значит, что возможна работа в многопотоке без особой нагрузки на железо. Для применения всех фильтров и также для уменьшения вероятности бана шаблон использует передачу «Cookie» от запроса к запросу, а также делает настройку поиска через панель Бинг ( https://www.bing.com/account/general ) без входа в аккаунт.
Только таким методом получилось добиться главного для меня требования: «Выполнять мои поиски только на страницах, написанных на определенных языках». А то без жесткого указания языка (#5.4 во «Входных параметрах») если попадались случайно в базе ключи на других языках, либо без явного признака языка (например, ключ без слов: «1990»), то автоматом подтягивало из выдачи страницы на разных языках, что было неприемлемо.
Минус такой схемы: лишние пару секунд тратятся на настройку параметров поиска, и лишь потом идет парсинг ключа. Но под следующий ключ параметры уже не надо перенастраивать, они обнуляются только при смене прокси. Так что минус не большой.
ShadowBan:
Есть у ПС Bing (и не только) такой хитрый режим “ShadowBan”. Это когда он подозревает ваш IP в автоматическом парсинге, и не прямиков в лоб выдаёт капчу, или банит, а просто вместо нормального результата выдачи подсовывает вам кэшированные старые результаты в минимальном количестве (обычно <100).
Так что я придумал такой алгоритм:
Шаблон в самом начале при проверке прокси делает запрос случайным ВЧ-ключом, и если там меньше 100 результатов, то считает прокси «плохим» и меняет его. Потом перед началом работы шаблон проделывает еще кое-какие запросы, связанные с настройками парсинга и получением дополнительных «cookie» сервиса Bing. Таким методом парсинг начинается уже не с чистого листа, а этого уменьшает шансы бана в будущем.
Но этого оказалось мало, так как иногда ShadowBan приходит потом. Поэтому я добавил дополнительную проверку и во время парсинга.
Если и этого мало, то с помощью настройки #3.4 вы можете организовать сохранение ключей где мало результатов и в повторную обработку их пустить.
Планы:
Шаблон делал под себя для дорвейных дел. Поэтому если будущим покупателям надо будет внедрить в него актуальные поправки, то для таких обсуждений создан закрытый чат телеграмм. На основе ваших хотелок мною будет расширятся функционал с новыми обновлениями. Например, сейчас шаблону не хватает режима «Проект в проекте» для его интеграции в другие Zenno-комбайны. Если будут пожелания, то добавлю этот функционал.
Пример результата парсинга:
Парсил английские ключи по похуднеию. Результат залил на гугл-диск.
Запускать шаблон теоретически лучше не больше чем в ~100 потоков, или так чтобы нагрузка на ваш CPU не превышала 80%. У меня практика показала, что даже если и добавить больше потоков, то скорость обработки не увеличится. Хотя все зависит от режимов работы и мощности железа. Колебание скорости реальной работы очень легко анализировать по графику нагрузки сети (у меня в районе 20 мбит\секунду идет передача). Если вы видите, что после прибавления потоков график уже не растет, значит не смысла ставить больше, ибо достигнут физический предел.
Вот для понимания скриншот «Диспетчера задач» на Wondows 10, где по графику видно что нагрузка сети стабилизировалась на уровне ~10 мбит и не растет:
Вот для понимания скриншот «Диспетчера задач» на Wondows 10, где по графику видно что нагрузка сети стабилизировалась на уровне ~10 мбит и не растет:
Да, есть полностью открытый и бесплатный шаблон в первом конкурсе статей:
Парсер Bing (от surrealmix)
Парсер Bing (от surrealmix)
- Для поиска доноров под парсинг текстового контента.
- Для мониторинга выдачи по разным ключам.
- Для парсинга текстовых сниппетов под генерацию дорвеев.
Кто покупает шаблоны ZennoPoster, тот в курсе стандартных условий, которых придерживается большинство продавцов. Но все же продублирую для новичков:
Шаблон закрытого типа, а значит будет только запускаться в ZennoPoster или ZennoBox, но не в ProjectMaker. Привязка идет на одну почту-лицензию зенки без возможности пере-привязки. То есть вы можете и на нескольких ZennoPoster запускать на разных ПК одновременно шаблон. Но только при условии, что все они куплены на один и тот же профиль (почту-лицензию) в кабинете userarea.zennolab.com.
Если у вас нет ZennoPoster, то придется выписывать шаблон для ZennoBox, и тут мне нужна стандартная доплата +10$ для погашения комиссии сервиса по формированию ZennoBox-версии.
Шаблон закрытого типа, а значит будет только запускаться в ZennoPoster или ZennoBox, но не в ProjectMaker. Привязка идет на одну почту-лицензию зенки без возможности пере-привязки. То есть вы можете и на нескольких ZennoPoster запускать на разных ПК одновременно шаблон. Но только при условии, что все они куплены на один и тот же профиль (почту-лицензию) в кабинете userarea.zennolab.com.
Если у вас нет ZennoPoster, то придется выписывать шаблон для ZennoBox, и тут мне нужна стандартная доплата +10$ для погашения комиссии сервиса по формированию ZennoBox-версии.
Видео:
...запишу в будущем может.
Цена: 40$
Контакты: личка форума, Telegram: orka13 (ссылка кликабельная, добавляйтесь по ней, а то могут быть мошенники с подобными никами), Skype: orkanavtica
Гарантия: возврат средств (манибек) за шаблон в течении 14 дней после его получения (за вычетом комиссии платежных систем). Здесь проблем нет, лояльно отношусь к такому требованию, даже если шаблон на 100% рабочий был, и дело чисто во вкусах покупателя.
Бесплатная Trial-версия: любому форумчанину со стаусом Client готов выдать шаблон наперед без оплаты (триалка на 14 дней). Даже под зенобокс (оплата комиссии сервиса за мой счет).
Лицензия: вечная, шаблон будет закрыт и прикреплен к вашему Email (ID) Zennolab. То есть можете запускать одновременно и на разных ПК, если у вас купленно несколько копий Zennoposter. Если же Zennoposter отсутствует вовсе, то выпишу лицензию под Zennobox, но оплата комиссии сервиса тогда за ваш счет (+10$).
Поддержка: стараюсь обновлять парсер после каждых изменений в сервисе (они где-то раз в год случаются). Но иногда это затягивается на длительные сроки. Если же нужны индивидуальные консультации по первому запуску шаблона или ZennoPoster, так как вы совсем дуб-дубом и ничего не понимаете, то и это возможно: схема «TeamViewer + Skype», ценник: 3$/10 минут. Если я вдруг пропаду, или кардинально сменю вид деятельности то понятно, что никто поддерживать шаблон вместо меня не будет. Открою тогда исходники и дальше уже сами разбирайтесь.
Последнее редактирование: