Чистка текста регулярками

edger

Client
Регистрация
08.03.2012
Сообщения
42
Благодарностей
4
Баллы
8
Здравия желаю!) Имеется куча спаршенной текстовки, очень нужно отобрать из этого всего дела только те теги <p>, <h1>, <h2>, после которых сразу идут русские символы. Помогите пожаааалуйста)
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 621
Благодарностей
8 763
Баллы
113
Здравия желаю!) Имеется куча спаршенной текстовки, очень нужно отобрать из этого всего дела только те теги <p>, <h1>, <h2>, после которых сразу идут русские символы. Помогите пожаааалуйста)
Попробуйте такую регулярку:
Код:
(?<=<(p|h\d)>)(?i)[а-яё]+(?=</(p|h\d)>)
Но думаю, ее надо дорабатывать, насчет "сразу идут русские символы".
Но возможно, как заготовка для продолжения изысканий подойдет. :-)

41841
 
  • Спасибо
Реакции: edger

edger

Client
Регистрация
08.03.2012
Сообщения
42
Благодарностей
4
Баллы
8
Попробуйте такую регулярку:
Код:
(?<=<(p|h\d)>)(?i)[а-яё]+(?=</(p|h\d)>)
Но думаю, ее надо дорабатывать, насчет "сразу идут русские символы".
Но возможно, как заготовка для продолжения изысканий подойдет. :-)

Посмотреть вложение 41841
Спасибочки большое) Помог):bu:
 
  • Спасибо
Реакции: Sergodjan

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)