Проверяем процент схожести текста

Wide

Client
Регистрация
04.02.2013
Сообщения
970
Благодарностей
262
Баллы
63
Парни есть самый простой алгоритм лично накаляканный, который требует критики и доработки, и возможно перенести на сишарп.
1. Получаем количество слов в обоих текстах.
2. Берём самый короткий текст и разбиваем его по словам в список 1.
3. Разбивает второй текст по словам в список 2.
4. Берем строку с удалением из списка 1 ищем её в списке 2.
5. С каждым успешном поиске пишем любой символ в список 3.
6. Когда список 1 закончится, берём количество строк из списка 3 и сравниваем с количеством слов самого короткого текста.
Вопрос. Как определить процент схожести? Какие минусы в моем способе?
Может у вас есть другой алгоритм на кубиках или сишарпе? Поиском кроме статьи на хабре ни чего не нагуглил.
 

Roman48

Client
Регистрация
28.02.2016
Сообщения
2 058
Благодарностей
746
Баллы
113

daVinchi

Client
Регистрация
11.01.2019
Сообщения
60
Благодарностей
69
Баллы
18
  • Спасибо
Реакции: Wide

todayer

Client
Регистрация
07.08.2013
Сообщения
1 001
Благодарностей
413
Баллы
83
В стандартном варианте используется способ проверки по шинглам. Т.е сравниваются последовательно 3, 4, или, например, 5 слов (шингл 3, 4, 5). А то, что описано выше, это проверка на рерайт, т.е процент совпадения общего набора слов. Проверять на рерайт также способен софт от бирж etxt и адвего.
 

Wide

Client
Регистрация
04.02.2013
Сообщения
970
Благодарностей
262
Баллы
63
В стандартном варианте используется способ проверки по шинглам. Т.е сравниваются последовательно 3, 4, или, например, 5 слов (шингл 3, 4, 5). А то, что описано выше, это проверка на рерайт, т.е процент совпадения общего набора слов. Проверять на рерайт также способен софт от бирж etxt и адвего.
Если бы мне нужно было проверять через сервис, я бы так и сделал, тем более что есть апи. Но мне нужно примышлённых масштабах и локально.
 

Wide

Client
Регистрация
04.02.2013
Сообщения
970
Благодарностей
262
Баллы
63

Wide

Client
Регистрация
04.02.2013
Сообщения
970
Благодарностей
262
Баллы
63

todayer

Client
Регистрация
07.08.2013
Сообщения
1 001
Благодарностей
413
Баллы
83
Если бы мне нужно было проверять через сервис, я бы так и сделал, тем более что есть апи. Но мне нужно примышлённых масштабах и локально.
Я вроде ничего не предлагал, а отвечал на вопросы "Как определить процент схожести? Какие минусы в моем способе?"
 

daVinchi

Client
Регистрация
11.01.2019
Сообщения
60
Благодарностей
69
Баллы
18

Вложения

  • Спасибо
Реакции: djaga и Wide

Wide

Client
Регистрация
04.02.2013
Сообщения
970
Благодарностей
262
Баллы
63
  • Спасибо
Реакции: djaga

igoreff

Client
Регистрация
24.02.2011
Сообщения
222
Благодарностей
37
Баллы
28
Подскажите пожалуйста, можно как то сделать, что бы результат не в лог записывался, а в переменную?
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)