Проверка текста на совпадение

Sergodjan · 19.04.2015

bezvozni сказал(а):
Есть база текстов. Есть ещё один текст. Нужно проверить его на уникальность относительно этой базы. Реализуемо?

Понимаю, что скорей всего не стандартными методами зенки, но всё же...

Можно также просто сравнить один текст с другим на процент совпадений (потом просто сравню каждый текст из базы с тем самым "ещё одним"))) Но есть ли такая возможность?

Просто если в тексте изменён хотя бы один символ, то обычным сравниванием if его не находит. Хотя там пробел просто лишний, или опечатка. Хотелось бы сравнивать про проценту совпадений. То есть если, например, в тексте больше 98 % процентов совпадений - принимаем его как дубль.

Надеюсь не слишком сумбурно объяснил суть проблемы - спешу. Если что не понятно - вопросы приветствуются.

как вариант - брать по очереди строку за строкой из файла и искать ее вхождение в другом файле, в цикле..
таким образом проверим все строки и можно уже вычислять процент совпадения..

zortexx · 19.04.2015

Реализуемо. Алгоритм основанный на шинглах поможет не тоько найти похожий текст, но еще и определить процент схожести.
Суть метода элементарна:

Канонизируем текст
Разбиваем на шиглы
Высчитываем хэши
Сравниваем

Поищите описание в гугле. На хабре быстро нашлось вот это: http://m.habrahabr.ru/post/65944/

Поиск

Проверка текста на совпадение

bezvozni

Client

Sergodjan

Administrator

bezvozni

Client

zortexx

Client

bezvozni

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)