Помогите с парсером.

Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
Добрый вечер, ребята посоветуйте как по проще парсер объявлений сделать на https://besposrednika.ru
Нужно спарсить картинки, текст и телефон. Нужно чтобы при последующих запусках парсера не скачивались дубликаты, а только свежие.
 
Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
Или дайте какойнибудь шаблончик чтоб на примере посмотреть...
 

doc

Client
Регистрация
30.03.2012
Сообщения
8 684
Благодарностей
4 641
Баллы
113
сначала сделай парсер ссылок на объявления. Собери ссылки. Потом уже парсер всего остального по этим ссылкам. Объяву распарсил - ссылку удалил
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
Ссылки лучше не удалять, а складывать в файл или базу, чтобы при последующих запусках парсера отсеивать уже спаршенные.
 
Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
А вот не получается ссылки спарсить. скопировал "взять DOM" с другого проекта. что тут нужно заполнить? т.как в другом проекте парсит ссылки а вот в новом не хочет.

upload_2017-3-28_0-38-26.png
 
Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
так понял нужна регулярка которая будет парсить только ссылки обьявлений. а где такую взять? я через тестер рег выражений пробывал, но наверно чтото не правильно делаю((
ссылка такого формата https://besposrednika.ru/sdam/1-komnatnye/125130-1-38-12-13-05-27-03-2017
 
Последнее редактирование:

Rdenwer

Client
Регистрация
14.10.2010
Сообщения
254
Благодарностей
61
Баллы
28
так понял нужна регулярка которая будет парсить только ссылки обьявлений. а где такую взять? я через тестер рег выражений пробывал, но наверно чтото не правильно делаю((
ссылка такого формата https://besposrednika.ru/sdam/1-komnatnye/125130-1-38-12-13-05-27-03-2017
(?<=href=")https://besposrednika\.ru/.*(?=">)
 
Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
Спасибо, Что-то уже вроде чтото намутил, но ваша тоже работает (только в списке 1я ссылка неполная т.е лишняя)
Теперь встал вопрос как с этих ссылок получить картинки, заголовок, текст, телефон, время публикации.
По отдельности свой парсер создавать? ...
- начал с картинок, но файл создается формате текс-док а не картин

upload_2017-3-28_12-5-11.png
upload_2017-3-28_12-6-11.png
upload_2017-3-28_12-6-11.png
 

Вложения

Последнее редактирование:
Регистрация
28.06.2016
Сообщения
308
Благодарностей
17
Баллы
18
к примеру аот ссылка на обьявление. https://besposrednika.ru/sdam/1-komnatnye/82660-sdam-1-komnatnaya-kvartira-44-kv-m-barnaul-antona-petrova-254-13-41-18-02-2016

вот ссылка на картинку. https://besposrednika.ru/images/sobipro/galleries/f1/82660/78805a22.jpeg

создал регулярку такую (изображение) (?<=/images/sobipro/galleries/).*g но парсятся ссылки изоброжений в перемешку со всякой не нужной вещью.
типа :

f1/82660/78805a22.jpeg" rel="g
f1/82660/ico_78805a22.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22.jpeg
f1/82660/ico_78805a22.jpeg
f1/82660/78805a22_1.jpeg" rel="g
f1/82660/ico_78805a22_1.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_1.jpeg
f1/82660/ico_78805a22_1.jpeg
f1/82660/78805a22_2.jpeg" rel="g
f1/82660/ico_78805a22_2.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_2.jpeg
f1/82660/ico_78805a22_2.jpeg
f1/82660/78805a22_3.jpeg" rel="g
f1/82660/ico_78805a22_3.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_3.jpeg
f1/82660/ico_78805a22_3.jpeg
f1/82660/78805a22_5.jpeg" rel="g
f1/82660/ico_78805a22_5.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_5.jpeg
f1/82660/ico_78805a22_5.jpeg
f1/82660/78805a22_9.jpeg" rel="g
f1/82660/ico_78805a22_9.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_9.jpeg
f1/82660/ico_78805a22_9.jpeg
f1/82660/78805a22_10.jpeg" rel="g
f1/82660/ico_78805a22_10.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_10.jpeg
f1/82660/ico_78805a22_10.jpeg
f1/82660/78805a22_11.jpeg" rel="g
f1/82660/ico_78805a22_11.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_11.jpeg
f1/82660/ico_78805a22_11.jpeg
f1/82660/78805a22_12.jpeg" rel="g
f1/82660/ico_78805a22_12.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_12.jpeg
f1/82660/ico_78805a22_12.jpeg
f1/82660/78805a22_13.jpeg" rel="g
f1/82660/ico_78805a22_13.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_13.jpeg
f1/82660/ico_78805a22_13.jpeg
f1/82660/78805a22_14.jpeg" rel="g
f1/82660/ico_78805a22_14.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_14.jpeg
f1/82660/ico_78805a22_14.jpeg
f1/82660/78805a22_15.jpeg" rel="g
f1/82660/ico_78805a22_15.jpeg" class="lazy-loaded" data-src="/images/sobipro/galleries/f1/82660/ico_78805a22_15.jpeg
f1/82660/ico_78805a22_15.jpeg
f1/82660/78805a22.jpeg


как мне повыдергать от сюда картинки, текст, заголовки, телефон. ?

upload_2017-3-28_14-1-25.png
 

S16er1um

Client
Регистрация
14.04.2016
Сообщения
826
Благодарностей
240
Баллы
43
Советую вам почитать http://zennolab.com/wiki/ru:start и посмотреть обучающие видео.
А то вы задаёте вопросы, которые свидетельствуют о том что вы абсолютно не учились работе с зенкой. Там всё доступно и легко рассписано.

Это не выпад в вашу сторону, просто это реально вам больше поможет чем постоянные вопросы на форуме. и ускорит работу
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)