Как определить язык текста?

  • Автор темы Автор темы xoffer
  • Дата начала Дата начала

xoffer

Client
Регистрация
27.01.2011
Сообщения
89
Реакции
8
Баллы
8
Как определить язык текста на странице с помощью зенно? Сам сайт на анг., но нужно отбирать тех кто пишет отзывы только на русском языке.
 
Как определить язык текста на странице с помощью зенно? Сам сайт на анг., но нужно отбирать тех кто пишет отзывы только на русском языке.
не идеальный вариант, но все же, можно напрмиер такой регуляркой [А-Яа-яё].* проверять строку (переменную) на наличие кириллицы и с помощью IF проверять на пустоту..
 
  • Спасибо
Реакции: PussyM и Valerevic
Хз, банально, но любой язык определит: брать блок текста с отзывом и забрасывать в гугл переводчик в режиме "авто определение языка", и смотреть как он определит.
Или искать другие сервисы для анализа текстовки. Офлайн решения может есть на каких то библиотеках C# с встроенными словарями часто встречаемых слов в языке.

или вариант регуляркой, но не просто проверкой на буквы, а на часто встречаемые слова (ну чтобы отсеять другие языки, которые на кириллице) . Я использую именно такой метод:
Русский язык:
Код:
Развернуть Свернуть Копировать
\b(и|в|на|с|не|эт\w*|что|для|котор\w*)\b
Английский язык:
Код:
Развернуть Свернуть Копировать
\b(the|and|to|for|at)\b
Ищем сколько таких слов нашло, потом считаем общую длину текста в котором искали, и рассчитываем процентное соотношение, если оно сильно больше 0, то наш клиент :).
 
Объеденил подход Dimionix и orka13 - то-есть считаем не количество букв, а количество типичных слов. Если русских больше - значит текст на русском.
Определение языка текста (РУ-НЕ РУ):
Развернуть Свернуть Копировать
string input = project.Variables["TEMP_TEXT"].Value;
int countEn = Regex.Matches (input, @"\b(the|and|to|for|at)\b").Count;
int countRu = Regex.Matches (input, @"\b(и|в|на|с|не|эт\w*|что|для|котор\w*)\b").Count;
if (countEn >= countRu) return "EN";
else return "RU";
 
не идеальный вариант, но все же, можно напрмиер такой регуляркой [А-Яа-яё].* проверять строку (переменную) на наличие кириллицы и с помощью IF проверять на пустоту..

Благодарю, для моей задачи вполне подходит данное решение)
 
  • Спасибо
Реакции: Sergodjan
Подскажите, нашел сервис, который определяет язык по API
Как правильно вводить данные в POST кубик?

42d8ea8f56.jpg


c0aab2958d.jpg


2e1963fe17.jpg

Но пишет, что неправильный API ключ
{"error":{"code":1,"message":"Invalid API key"}}
 
  • Спасибо
Реакции: GreenWay
Подскажите, нашел сервис, который определяет язык по API
Как правильно вводить данные в POST кубик?

42d8ea8f56.jpg


c0aab2958d.jpg


2e1963fe17.jpg

Но пишет, что неправильный API ключ
{"error":{"code":1,"message":"Invalid API key"}}

Нужно UA указать

user-agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.84 Safari/537.36 OPR/85.0.4341.75
Authorization: Bearer 3c022dca94063**************
 
  • Спасибо
Реакции: vesb

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)