Определения языка

LiMe

Client
Регистрация
10.12.2015
Сообщения
618
Благодарностей
339
Баллы
63
Доброго времени суток, подскажите пожалуйста, как можно сделать, чтобы при наличии иероглифов на странице, это определялось. Парсю гугл, и нужны такие запросы откидывать. Возможно ли это как-то реализовать?
 

S16er1um

Client
Регистрация
14.04.2016
Сообщения
826
Благодарностей
240
Баллы
43
Я бы загуглил китайский алфавит в список (если такое существует) и при парсинге брал бы любую букву(\иероглиф) из текста и проверял - есть ли такая в списке. Если есть - до свидания. Или же наоборот. Положил все иероглифы в список. Брал бы какое-то текстовое поле из поисковой выдачи и искал бы поочерёдно в нём хоть один из списка символов. Если хоть один есть(при самом первом совпадении) - то сразу же переходил к следующему сайту без занесения этого в нужный список
 

justhelen

Client
Регистрация
18.11.2009
Сообщения
267
Благодарностей
134
Баллы
43
Можно сделать кубик "Получение данных", там выбрать "Взять Source", отметить "Парсить результат" и в поле Regex написать регекс [a-zA-Z0-9\r\n\s\t,.!:]+ (символы ",.!:" - это для примера, тебе это надо заменить на все символы, которые могут встречаться в тексте и устраивают тебя). Берёшь первое совпадение по этому регексу (это можно в кубике выбрать тоже), сохраняешь в переменную. Например, переменная называется sourceParsed.

Делаешь второй кубик, точно такой же, только там не отмечаешь "Парсить результат", сохраняешь в другую переменную. Например, переменная называется source.

Обе переменные подготавливаешь к Javascript (кубик "Обработка текста" -> "Подготовка Javascript").

Потом делаешь кубик If, в нём "{-Variable.sourceParsed-}".length == "{-Variable.source-}".length. Если длины строк совпадают, иероглифов не было.

Вообще, как предложил S16er1um, возможно, будет работать быстрей, потому что регексы работают медленней, чем проверка наличия сомвола в строке. Но зато тебе надо будет делать список иероглифов. Если сделать как я предложила, список иероглифов не надо будет делать.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)