Регулярка для парсинга контента

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
Кто знает как составить регулярное выражение для парсинга контента с форматированием и картинками по списку разных url?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Пример?
 

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
Ну например есть у меня список url на статьи которые я спарсил из яндекса, а мне нужна регулярка чтобы спарсить статью с картинками, абзацами, заголовками, метатегами и т.д. Как это сделать?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113
Ну например есть у меня список url на статьи которые я спарсил из яндекса, а мне нужна регулярка чтобы спарсить статью с картинками, абзацами, заголовками, метатегами и т.д. Как это сделать?
универсальную регулярку не получится составить, если сайты разношерстные, на разных движках..
ну и даже если на одном движке, то тоже проблематичным может быть..
 

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
универсальную регулярку не получится составить, если сайты разношерстные, на разных движках..
ну и даже если на одном движке, то тоже проблематичным может быть..
Почему не получится, x-parser как-то же работает.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113
Почему не получится, x-parser как-то же работает.
x-parser картинки тоже собирает?
ну не буду спорить, действительно - ничего невозможного нет..
я просто указал, что это будет проблематично..
кстати, как то делал универсальный парсер контента на зенке, но качественный универсальный парсер статей с иллюстрациями - это совсем другое..

у зеннопостера, кстати есть интересный инструмент - article extraction, но он картинки не тянет.. :ak:
 
Последнее редактирование:

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
x-parser картинки тоже собирает?
ну не буду спорить, действительно - ничего невозможного нет..
я просто указал, что это будет проблематично..
кстати, как то делал универсальный парсер контента на зенке, но качественный универсальный парсер статей с иллюстрациями - это совсем другое..

у зеннопостера, кстати есть интересный инструмент - article extraction, но он картинки не тянет.. :ak:
xparser картинки не парсит! Но хоть без картинок как можно сделать?
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 562
Благодарностей
9 177
Баллы
113
x-parser картинки тоже собирает?
xparser картинки не парсит! Но хоть без картинок как можно сделать?
проще всего подсмотреть у x-parser его регулярки, если там есть такая возможность, точно не помню, есть или нет..
 

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
Почему не получится, x-parser как-то же работает.
Ваша задача сейчас написать функции другой программы под себя самостоятельно. Понятно что придется посидеть и поразрабатывать
 

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
Ваша задача сейчас написать функции другой программы под себя самостоятельно. Понятно что придется посидеть и поразрабатывать
А можно как-то в одном регулярном выражении прописать какие теги разрешить, а какие удалить?
 

rostonix

Известная личность
Регистрация
23.12.2011
Сообщения
29 067
Благодарностей
5 715
Баллы
113
тут не только про теги история. Лишнее содержание данных на странице разнится от сайта к сайту
 

deksi

Пользователь
Регистрация
20.08.2015
Сообщения
37
Благодарностей
1
Баллы
8
тут не только про теги история. Лишнее содержание данных на странице разнится от сайта к сайту
Ну это я знаю, но я еще хотел бы узнать возможно ли сделать регулярку чтоб выпарсить за один раз все что мне нужно?
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Как всегда приду я и напущу тумана))))

Возможно на верный ход мыслей вас наведут следующие статьи

http://habrahabr.ru/company/mailru/blog/200394/
вот эта понагляднее


вот эти помутнее)
http://habrahabr.ru/post/200718/
http://habrahabr.ru/post/66221/

Понимаю, что будет больше вопросов, чем ответов, но уверен что вопросы будут более предметны после прочтения, а значит и ответы на них найти проще)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)