Парсер информации с онлайн базы недвижимости cian.ru

kruasang

Client
Регистрация
24.02.2019
Сообщения
11
Благодарностей
14
Баллы
3
Всем привет. Я решил поделиться с вами шаблоном парсером информации с объявлений, размещённых в онлайн базе недвижимости cian.ru. Шабон работает на post/get запросах, без использования браузера.

К сожалению, шаблон не работает для Москвы. Для всех остальных городов исправно работает.

upload_2019-3-2_13-1-27.png

Шаблон работает в двух режимах:
  1. Сбор ссылок на объявления в указанном городе.
  2. Сбор информации с полученных объявлений.
Использование прокси:

Циан любит блокировать IP, с которых идут частые запросы. Блок может быть временным - нужно разгадать ReCaptcha 2, либо постоянным - IP заносится в чёрным список и разблокировать его можно только после обращения в тех поддержку, или он автоматически становится "рабочим" через определённое время. Поэтому, я рекомендую использовать мобильные прокси. Прокси необходимо поместить в файл proxy.txt

В шаблоне обход блокировки и капчи реализован таким образом, что, если появляется капча или блокируется IP, шаблон просто меняет IP адрес и продолжает свою работу.

Какие данные собирает шаблон:

Все собранные в результате работы шаблона данные, будут помещены в файл cian_rezult.xlsx. Парсер собирает следующие данные:
  • Категория
  • Подкатегория
  • Название объявления
  • Ссылка на объявление
  • Дата публикации
  • Номер телефона
  • Текст объявления
  • Цена
  • Количество просмотров
  • Тип объявления

Окно входящих настроек:

upload_2019-3-2_13-9-56.png

Пояснения входящих настроек:

Выберите режим работы - содержит два варианта работы: 1) Сбор ссылок и 2) Сбор информации. Сначала следует запустить режим "Сбор ссылок", а после его завершения "Сбор информации".
Укажите город (латинскими буквами) - здесь следует указать город, объявления по которому вы хотите собрать. Город следует указывать латинскими буквами. Чтобы не ошибиться в корректном указании города, рекомендую зайти на сам сайт cian.ru и выбрать интересующий вас город. В результате вы попадёте на домен третьего уровня, например, novosibirsk.cian.ru. Копируете novosibirsk и вставляете в поле "Укажите город (латинскими буквами)".
Максимальная стоимость квартиры (вторички) - укажите максимальную стоимость квартиры во вторичке, до которой следует собрать объявления.
Максимальная стоимость квартиры (в новостройке) - укажите максимальную стоимость квартиры в новостройке, до которой следует собрать объявления.
Максимальная стоимость комнаты - укажите максимальную стоимость комнаты, до которой следует собрать объявления.
Максимальная стоимость дома - укажите максимальную стоимость дома, до которой следует собрать объявления.
Максимальная стоимость участка - укажите максимальную стоимость участка, до которой следует собрать объявления.

Алгоритм работы шаблона в режиме "Сбор ссылок":

Важно: данный режим работает только в 1 поток.

Шаблон поэтапно собирает ссылки на все объявления в каждой из пяти категорий в следующем порядке:
  1. Квартиры во вторичке
  2. Квартиры в новостройке
  3. Комнаты
  4. Дома
  5. Участки
Поскольку cian.ru не отображает больше 700 объявлений за раз (не на одной странице, а в сумме с нескольких страниц), то шаблон начинает собирать объявления шаг за шагом изменяя диапазон цен. Например, при сборе ссылок на объявления о продаже квартир в новостройке, шаблон сначала будет собирать объявления в диапазоне цен с 0 до 300 000, затем с 300 000 до 600 000, затем с 600 000 до 900 000 и так далее, пока диапазон не достигнет максимальной стоимости объекта недвижимости, указанной во входящих настройках.

Для каждой категории установлены свои шаги:
  1. Квартиры во вторичке - 150 000
  2. Квартиры в новостройке - 300 000
  3. Комнаты - 300 000
  4. Дома - 5 000 000
  5. Участки - 500 000
Размер шагов можно установить самостоятельно, изменив число в трёх кубиках в соответствующей категории:

upload_2019-3-2_12-25-34.png

Во всех трёх кубиках нужно установить одно и тоже число. Например, если вы пропишите в них 1 000 000, то шаблон будет брать следующий диапазон: 0 - 1 000 000, затем 1 000 000 - 2 000 000, затем 2 000 000 - 3 000 000 и так далее.

Чем больше диапазон, тем быстрее будет идти сбор ссылок на объявления, однако, есть риск не собрать все ссылки на объявления (помните про максимальное число отображаемых объявлений в 700 шт.).

После сбора ссылок в каждой из категорий, в логах вы будете видеть число собранных объявлений, а по завершению работы шаблона - общее количество собранных объявлений.

Алгоритм работы шаблона в режиме "Сбор информации":

После того, как шаблон отработает в режиме "Сбор ссылок", вам следует зайти во входящие настройки и запустить работу шаблона в режиме "Сбор информации". В этом режиме шаблон собирает всю доступную информацию с объявлений: категория, подкатегория, название объявления, ссылка на объявление, дата публикации, номер телефона, текст объявления, цена, количество просмотров, тип объявления.

Важно: режим "Сбор информации" работает на post/get запросах и может быть запущен в многопотоке.

По завершению работы шаблона в режиме "Сбор информации", в файле cian_rezult.xlsx (лежит в папке Результат) вы найдёте всю собранную информацию.

upload_2019-3-2_12-50-41.png


Как монетизировать данный шаблон, я думаю, вы догадались. Если шаблон был вам полезен или понравилась его реализация - голосуйте, жамкайте кнопку спасибо
 
Категория
Парсинг, Доски объявлений
Номер конкурса шаблонов
Третий конкурс шаблонов
Уровень сложности
Средний

Вложения

Для запуска проектов требуется программа ZennoPoster или ZennoDroid.
Это основное приложение, предназначенное для выполнения автоматизированных шаблонов действий (ботов).
Подробнее...

Для того чтобы запустить шаблон, откройте нужную программу. Нажмите кнопку «Добавить», и выберите файл проекта, который хотите запустить.
Подробнее о том, где и как выполняется проект.

theinova

Client
Регистрация
07.09.2016
Сообщения
118
Благодарностей
79
Баллы
28
нет не догадались.
подскажите как?
 
  • Спасибо
Реакции: Gfoblin и kagorec

fri-lancer

Client
Регистрация
01.10.2013
Сообщения
418
Благодарностей
156
Баллы
43

alar1

Client
Регистрация
20.08.2014
Сообщения
14
Благодарностей
2
Баллы
3
а почему по москве не работает?
 

sergboss

Client
Регистрация
19.09.2016
Сообщения
52
Благодарностей
3
Баллы
8
Мне тоже интересно почему по москве не работает?
 

6zxa9m

Client
Регистрация
10.01.2018
Сообщения
128
Благодарностей
27
Баллы
28

Zoolone

Banned
Регистрация
05.06.2019
Сообщения
141
Благодарностей
153
Баллы
43

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Zoolone какие-либо сделки.

Годнота. Пол ляма можно за недельку поднять думаю
 

dctuel

Client
Регистрация
08.09.2019
Сообщения
17
Благодарностей
2
Баллы
3
У меня ошибку на 2 действии показывает.
 

Yourliberty

Новичок
Регистрация
02.01.2020
Сообщения
1
Благодарностей
0
Баллы
1
Топикстартеру - есть заказ на парсер cian, похожий на то, что было сделано, но кастомизированный под другие задачи. Если есть желание посотрудничать - в личку пишите пожалуйста, ваш профиль закрыт.
 

Eugetic

Новичок
Регистрация
29.10.2021
Сообщения
3
Благодарностей
0
Баллы
1
@kruasang, пара вопросов:
1. Что такое мобильные прокси и где их взять?
2. С помощью какой программы можно запустить ваш парсер?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)