Помогите с обработкой текста.

GreenWay

Client
Регистрация
11.05.2012
Сообщения
432
Благодарностей
139
Баллы
43
Паршу снипеты поисковиков чтоб использовать в роли текстовки. В спаршенном материале уйма мусора. Как с ним бороться? Регулярки для удаления ip, email, url, и просто доменов уже есть. Как убрать мусор типа ., .. и всяки страшных "закорюк" и иероглифов?
Как убрать из текста английский текст (и наоборот - русский)?
Помогите разобраться.
 

comitatus

Client
Регистрация
01.09.2012
Сообщения
26
Благодарностей
7
Баллы
3
Код:
[^a-zA-Zа-яА-Я0-9_]
уберет все кроме латиницы, кирилицы и цифр, знаки препинания тоже потрет
Код:
[^a-zA-Z0-9_]
уберет все кроме латиницы и цифр
по двум примерам догадаетесь как убрать только кирилицу и скажем добавить игнорирование знаков препинания.
 
  • Спасибо
Реакции: kabab

GreenWay

Client
Регистрация
11.05.2012
Сообщения
432
Благодарностей
139
Баллы
43
Спасибо. Конечно уже про все это догадался.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
20 407
Благодарностей
9 116
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)