подскажите по составлению регулярки

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
есть нужда извлекать только русские буквы, отсеивая английские и символы. погуглив, смог составить такую вот регулярку:
Код:
[A-Za-z\W]+
то есть, если исходный текст такой:
Код:
<span class="moneyman">money</span> владимир путин и алина кабаева, aeroflot air bus <a href="/dima">медведев дима</a></a>
то регулярка вытащит оттуда только это:


то есть, эту регулярку можно засунуть в экшен замены и заменить найденные символы на пустоту
но у меня возник трабл - данная регулярка также пробелы тоже находит и получается что они удаляются наравне с англ. буквами и символами.

подскажите, как тут дописать, чтобы эта регулярка не находила пробелы?
 

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
всё, решил вопрос.

решил тянуть сразу русские буквы,
вот такую регулярку сделал:
Код:
[А-Яа-я.,:;?!]+
она берет только русские символы без пробелов,
беру все совпадения, сохраняю в список, потом соединяю экшеном элементы списка с разделителем {-String.Space-} и на выходе получается только русский текст, без ссылок, тегов и всего прочего (знакие препинания решил не вырезать, пригодятся)
очень удобный фильтр, когда парсишь русские сайты на контент
 

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
Если задача вытащить текст статьи со страницы - рекомендую к использованию fivefilters
 
  • Спасибо
Реакции: money4honey

Irbis

Client
Регистрация
02.03.2014
Сообщения
195
Благодарностей
120
Баллы
43
Если русские буквы нужны, можно попробовать собрать такой регуляркой: [А-я]+
 

money4honey

Client
Регистрация
19.06.2014
Сообщения
144
Благодарностей
46
Баллы
28
спасибо, ребята, вы классные 8-)
 

faraon2006

Client
Регистрация
17.09.2013
Сообщения
68
Благодарностей
29
Баллы
18
спасибо, помог
 

ZennoScript

Moderator
Регистрация
04.03.2011
Сообщения
4 451
Благодарностей
1 885
Баллы
113
есть нужда извлекать только русские буквы, отсеивая английские и символы. погуглив, смог составить такую вот регулярку:
Код:
[A-Za-z\W]+
то есть, если исходный текст такой:
Код:
<span class="moneyman">money</span> владимир путин и алина кабаева, aeroflot air bus <a href="/dima">медведев дима</a></a>
то регулярка вытащит оттуда только это:


то есть, эту регулярку можно засунуть в экшен замены и заменить найденные символы на пустоту
но у меня возник трабл - данная регулярка также пробелы тоже находит и получается что они удаляются наравне с англ. буквами и символами.

подскажите, как тут дописать, чтобы эта регулярка не находила пробелы?

Можно заменять такой регуляркой:

Код:
[^а-яА-ЯёЁ\ ]
Дальше можно еще дописать символы, которые не нужно удалять (к примеру знаки препинания).
 

Кто просматривает тему: (Всего: 2, Пользователи: 0, Гости: 2)