Всем привет. Я решил поделиться с вами шаблоном парсером информации с объявлений, размещённых в онлайн базе недвижимости cian.ru. Шабон работает на post/get запросах, без использования браузера.
К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.
Шаблон работает в двух режимах:
Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt
В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.
Какие данные собирает шаблон:
Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
Окно входящих настроек:
Пояснения входящих настроек:
Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.
Алгоритм работы шаблона в режиме "Сбор ссылок":
Важно: данный режим работает только в 1 поток.
Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
Для каждой категории установлены свои шаги:
Во всех трёх кубиках нужно установить одно и тоже число. Например, если вы пропишите в них 1 000 000, то шаблон будет брать следующий диапазон: 0 - 1 000 000, затем 1 000 000 - 2 000 000, затем 2 000 000 - 3 000 000 и так далее.
Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).
После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.
Алгоритм работы шаблона в режиме "Сбор информации":
После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.
Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.
По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.
К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.
Шаблон работает в двух режимах:
- Сбор ссылок на объявления в указанном городе.
- Сбор информации с полученных объявлений.
Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt
В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.
Какие данные собирает шаблон:
Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
- Категория
- Подкатегория
- Название объявления
- Ссылка на объявление
- Дата публикации
- Номер телефона
- Текст объявления
- Цена
- Количество просмотров
- Тип объявления
Окно входящих настроек:
Пояснения входящих настроек:
Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.
Алгоритм работы шаблона в режиме "Сбор ссылок":
Важно: данный режим работает только в 1 поток.
Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
- Квартиры во вторичке
- Квартиры в новостройке
- Комнаты
- Дома
- Участки
Для каждой категории установлены свои шаги:
- Квартиры во вторичке - 150 000
- Квартиры в новостройке - 300 000
- Комнаты - 300 000
- Дома - 5 000 000
- Участки - 500 000
Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).
После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.
Алгоритм работы шаблона в режиме "Сбор информации":
После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.
Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.
По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.
Как монетизировать данный шаблон, я думаю, вы догадались. Если шаблон был вам полезен или понравилась его реализация - голосуйте, жамкайте кнопку спасибо
- Категория
- Парсинг, Доски объявлений
- Номер конкурса шаблонов
- Третий конкурс шаблонов
- Уровень сложности
- Средний
Вложения
-
210,9 КБ Просмотры: 1 245
Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...
Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.