Регулярка для парсинга контента

rostonix · 24.08.2015

Пример?

Sergodjan · 25.08.2015

deksi сказал(а):
Ну например есть у меня список url на статьи которые я спарсил из яндекса, а мне нужна регулярка чтобы спарсить статью с картинками, абзацами, заголовками, метатегами и т.д. Как это сделать?

универсальную регулярку не получится составить, если сайты разношерстные, на разных движках..
ну и даже если на одном движке, то тоже проблематичным может быть..

Sergodjan · 25.08.2015

deksi сказал(а):
Почему не получится, x-parser как-то же работает.

x-parser картинки тоже собирает?
ну не буду спорить, действительно - ничего невозможного нет..
я просто указал, что это будет проблематично..
кстати, как то делал универсальный парсер контента на зенке, но качественный универсальный парсер статей с иллюстрациями - это совсем другое..

у зеннопостера, кстати есть интересный инструмент - article extraction, но он картинки не тянет.. :ak:

Sergodjan · 26.08.2015

sergodjan66 сказал(а):
x-parser картинки тоже собирает?

deksi сказал(а):
xparser картинки не парсит! Но хоть без картинок как можно сделать?

проще всего подсмотреть у x-parser его регулярки, если там есть такая возможность, точно не помню, есть или нет..

rostonix · 31.08.2015

deksi сказал(а):
Почему не получится, x-parser как-то же работает.

Ваша задача сейчас написать функции другой программы под себя самостоятельно. Понятно что придется посидеть и поразрабатывать

rostonix · 31.08.2015

тут не только про теги история. Лишнее содержание данных на странице разнится от сайта к сайту

Lexicon · 31.08.2015

Как всегда приду я и напущу тумана))))

Возможно на верный ход мыслей вас наведут следующие статьи

http://habrahabr.ru/company/mailru/blog/200394/
вот эта понагляднее

вот эти помутнее)
http://habrahabr.ru/post/200718/
http://habrahabr.ru/post/66221/

Понимаю, что будет больше вопросов, чем ответов, но уверен что вопросы будут более предметны после прочтения, а значит и ответы на них найти проще)

Поиск

Регулярка для парсинга контента

deksi

Пользователь

rostonix

Известная личность

deksi

Пользователь

Sergodjan

Administrator

deksi

Пользователь

Sergodjan

Administrator

deksi

Пользователь

Sergodjan

Administrator

deksi

Пользователь

rostonix

Известная личность

deksi

Пользователь

rostonix

Известная личность

deksi

Пользователь

Lexicon

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)