Проверяем процент схожести текста

Wide

Client
Регистрация
04.02.2013
Сообщения
944
Благодарностей
253
Баллы
63
Парни есть самый простой алгоритм лично накаляканный, который требует критики и доработки, и возможно перенести на сишарп.
1. Получаем количество слов в обоих текстах.
2. Берём самый короткий текст и разбиваем его по словам в список 1.
3. Разбивает второй текст по словам в список 2.
4. Берем строку с удалением из списка 1 ищем её в списке 2.
5. С каждым успешном поиске пишем любой символ в список 3.
6. Когда список 1 закончится, берём количество строк из списка 3 и сравниваем с количеством слов самого короткого текста.
Вопрос. Как определить процент схожести? Какие минусы в моем способе?
Может у вас есть другой алгоритм на кубиках или сишарпе? Поиском кроме статьи на хабре ни чего не нагуглил.
 

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
742
Баллы
113

daVinchi

Client
Регистрация
11.01.2019
Сообщения
59
Благодарностей
67
Баллы
18
  • Спасибо
Реакции: Wide

todayer

Client
Регистрация
07.08.2013
Сообщения
944
Благодарностей
392
Баллы
63
В стандартном варианте используется способ проверки по шинглам. Т.е сравниваются последовательно 3, 4, или, например, 5 слов (шингл 3, 4, 5). А то, что описано выше, это проверка на рерайт, т.е процент совпадения общего набора слов. Проверять на рерайт также способен софт от бирж etxt и адвего.
 

Wide

Client
Регистрация
04.02.2013
Сообщения
944
Благодарностей
253
Баллы
63
В стандартном варианте используется способ проверки по шинглам. Т.е сравниваются последовательно 3, 4, или, например, 5 слов (шингл 3, 4, 5). А то, что описано выше, это проверка на рерайт, т.е процент совпадения общего набора слов. Проверять на рерайт также способен софт от бирж etxt и адвего.
Если бы мне нужно было проверять через сервис, я бы так и сделал, тем более что есть апи. Но мне нужно примышлённых масштабах и локально.
 

Wide

Client
Регистрация
04.02.2013
Сообщения
944
Благодарностей
253
Баллы
63

Wide

Client
Регистрация
04.02.2013
Сообщения
944
Благодарностей
253
Баллы
63

todayer

Client
Регистрация
07.08.2013
Сообщения
944
Благодарностей
392
Баллы
63
Если бы мне нужно было проверять через сервис, я бы так и сделал, тем более что есть апи. Но мне нужно примышлённых масштабах и локально.
Я вроде ничего не предлагал, а отвечал на вопросы "Как определить процент схожести? Какие минусы в моем способе?"
 

daVinchi

Client
Регистрация
11.01.2019
Сообщения
59
Благодарностей
67
Баллы
18

Вложения

  • Спасибо
Реакции: djaga и Wide

Wide

Client
Регистрация
04.02.2013
Сообщения
944
Благодарностей
253
Баллы
63
  • Спасибо
Реакции: djaga

igoreff

Client
Регистрация
24.02.2011
Сообщения
177
Благодарностей
20
Баллы
18
Подскажите пожалуйста, можно как то сделать, что бы результат не в лог записывался, а в переменную?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)