Помогите с обработкой текста.

GreenWay

Client
Регистрация
11.05.2012
Сообщения
437
Благодарностей
142
Баллы
43
Паршу снипеты поисковиков чтоб использовать в роли текстовки. В спаршенном материале уйма мусора. Как с ним бороться? Регулярки для удаления ip, email, url, и просто доменов уже есть. Как убрать мусор типа ., .. и всяки страшных "закорюк" и иероглифов?
Как убрать из текста английский текст (и наоборот - русский)?
Помогите разобраться.
 

comitatus

Client
Регистрация
01.09.2012
Сообщения
26
Благодарностей
7
Баллы
3
Код:
[^a-zA-Zа-яА-Я0-9_]
уберет все кроме латиницы, кирилицы и цифр, знаки препинания тоже потрет
Код:
[^a-zA-Z0-9_]
уберет все кроме латиницы и цифр
по двум примерам догадаетесь как убрать только кирилицу и скажем добавить игнорирование знаков препинания.
 
  • Спасибо
Реакции: kabab

GreenWay

Client
Регистрация
11.05.2012
Сообщения
437
Благодарностей
142
Баллы
43
Спасибо. Конечно уже про все это догадался.
 

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
22 559
Благодарностей
10 101
Баллы
113

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)