Всем привет. Я решил поделиться с вами шаблоном парсером информации с объявлений, размещённых в онлайн базе недвижимости cian.ru. Шабон работает на post/get запросах, без использования браузера.
К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.
Шаблон работает в двух режимах:
Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt
В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.
Какие данные собирает шаблон:
Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
Окно входящих настроек:
Пояснения входящих настроек:
Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.
Алгоритм работы шаблона в режиме "Сбор ссылок":
Важно: данный режим работает только в 1 поток.
Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
Для каждой категории установлены свои шаги:
Во всех трёх кубиках нужно установить одно и тоже число. Например, если вы пропишите в них 1 000 000, то шаблон будет брать следующий диапазон: 0 - 1 000 000, затем 1 000 000 - 2 000 000, затем 2 000 000 - 3 000 000 и так далее.
Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).
После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.
Алгоритм работы шаблона в режиме "Сбор информации":
После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.
Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.
По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.
К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.
Шаблон работает в двух режимах:
- Сбор ссылок на объявления в указанном городе.
- Сбор информации с полученных объявлений.
Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt
В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.
Какие данные собирает шаблон:
Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
- Категория
- Подкатегория
- Название объявления
- Ссылка на объявление
- Дата публикации
- Номер телефона
- Текст объявления
- Цена
- Количество просмотров
- Тип объявления
Окно входящих настроек:
Пояснения входящих настроек:
Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.
Алгоритм работы шаблона в режиме "Сбор ссылок":
Важно: данный режим работает только в 1 поток.
Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
- Квартиры во вторичке
- Квартиры в новостройке
- Комнаты
- Дома
- Участки
Для каждой категории установлены свои шаги:
- Квартиры во вторичке - 150 000
- Квартиры в новостройке - 300 000
- Комнаты - 300 000
- Дома - 5 000 000
- Участки - 500 000
Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).
После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.
Алгоритм работы шаблона в режиме "Сбор информации":
После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.
Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.
По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.
Как монетизировать данный шаблон, я думаю, вы догадались. Если шаблон был вам полезен или понравилась его реализация - голосуйте, жамкайте кнопку спасибо
- Номер конкурса шаблонов
- Третий конкурс шаблонов
- Уровень сложности
- Средний
- Категория
- Парсинг
- Доски объявлений



