Есть база текстов. Есть ещё один текст. Нужно проверить его на уникальность относительно этой базы. Реализуемо?
Понимаю, что скорей всего, стандартными методами зенки это решить, но всё же...
Можно также просто сравнить каждый текст из базы с тем самым "ещё одним" на процент совпадений (или, скажем так, на уровень схожести)))
Пока так и делаю, но сравниваю обычным экшеном if.
Но если в тексте изменён хотя бы один символ, то обычным сравниванием if его не находит. И программа считает данный текст уникальным. Хотелось бы сравнивать по проценту совпадений. То есть если, например, в тексте больше 98 % процентов совпадений относительно другого текста - принимаем его как дубль.
Надеюсь не слишком сумбурно объяснил суть проблемы - спешу. Если что не понятно - вопросы приветствуются.
Понимаю, что скорей всего, стандартными методами зенки это решить, но всё же...
Можно также просто сравнить каждый текст из базы с тем самым "ещё одним" на процент совпадений (или, скажем так, на уровень схожести)))
Пока так и делаю, но сравниваю обычным экшеном if.
Но если в тексте изменён хотя бы один символ, то обычным сравниванием if его не находит. И программа считает данный текст уникальным. Хотелось бы сравнивать по проценту совпадений. То есть если, например, в тексте больше 98 % процентов совпадений относительно другого текста - принимаем его как дубль.
Надеюсь не слишком сумбурно объяснил суть проблемы - спешу. Если что не понятно - вопросы приветствуются.
Последнее редактирование: