Парсер сайта недвижимости на Get-запросах (C#) в базу Sqlite + конвертер в Excel.

soprano

Client
Регистрация
25.08.2011
Сообщения
1 032
Реакции
1 265
Баллы
113
Здравствуйте.
На форуме не очень много информации по бессерверным базам данным, поэтому попытаюсь частично это исправить.
Предлагаю вашему вниманию парсер недвижимости сайта domofond.ru с сохранением информации в базу данных Sqlite.
Парсер написан на C# и на запросах (отслеживал запросы, кстати, в ZP, не хуже Fiddler'а), работает стабильно, после окончания парсинга все данные сохраняются в базу.
Без входных настроек, для эстетов.
63498


Поиск в шаблоне не делал, поэтому придется потратить минуту на подготовку.

Перед парсингом нужно выбрать город и объект недвижимости для парсинга,
я покажу на примере города Кириши, 1-комнатные квартиры.
На главной cтранице сайта https://www.domofond.ru/ нажимаете область (Ленинградская, например) в строке поиска - Кириши,
и ниже выбираете 1. Затем кликаете на желтую кнопку Найти.
63499


На открывшейся странице копируете в браузере ссылку.
C#:
Развернуть Свернуть Копировать
https://www.domofond.ru/prodazha-odnokomnatnyh-kvartir-kirishi-c3341
63500


Вставляете эту ссылку в 35-ю строку кода в PM и запускаете парсинг.
63501


Открыть полученную базу данных можно с помощью программы SQLite Studio. Выбираете базу, а затем в ней таблицу.
63502


Также добавил конвертер данных из Sqlite в обычный файл Excel. Конвертация происходит автоматически после завершения парсинга.
Кроме того, отдельно добавлен парсер номеров телефонов (на web) продавцов квартир,
который запустится после создания Excel таблицы и в неё же допишет номер напротив каждого объявления.
Получится вот так:
63503


Библиотеки HtmlAgilityPack и System.Data.Sqlite прилагаются.
Их нужно скопировать в папку ExternalAssemblies, а затем выбрать в GAC.

Парсер легко переделать для сбора информации почти с любого сайта.
Для этого нужно изменить только данные GET запроса, пагинацию и пути XPath.
 
Номер конкурса шаблонов
  1. Шестой конкурс шаблонов
Уровень сложности
Продвинутый
Категория
  1. Парсинг

Вложения

Последнее редактирование:
PM перезапускали после копирования библиотек?

Перезапускал, но на скрине видно, что он просит положить эти библиотеки. Просто возможно они не нужны, но есть в шаблоне
82Q8e8hwoWqXmd

поэтому, если они не нужны, то видимо их надо наоборот удалить изи GAC?
 
Перезапускал, но на скрине видно, что он просит положить эти библиотеки. Просто возможно они не нужны, но есть в шаблоне
82Q8e8hwoWqXmd

поэтому, если они не нужны, то видимо их надо наоборот удалить изи GAC?
Возможно недочет автора, попробуйте удалите лишние. Если не поможет, то лучше дождаться ответа самого автора.
 
Webdriver.dll и Epplus не нужны.
Шаблон без проблем в 5-й версии запускается, в 7-й могут быть траблы.
 
  • Спасибо
Реакции: Mikhail B.
Почистил ссылки из Gac и завелось. Тут автору стоит отслеживать этот момент.
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)