Проверка текста на совпадение

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
Есть база текстов. Есть ещё один текст. Нужно проверить его на уникальность относительно этой базы. Реализуемо?

Понимаю, что скорей всего, стандартными методами зенки это решить, но всё же...

Можно также просто сравнить каждый текст из базы с тем самым "ещё одним" на процент совпадений (или, скажем так, на уровень схожести)))
Пока так и делаю, но сравниваю обычным экшеном if.
Но если в тексте изменён хотя бы один символ, то обычным сравниванием if его не находит. И программа считает данный текст уникальным. Хотелось бы сравнивать по проценту совпадений. То есть если, например, в тексте больше 98 % процентов совпадений относительно другого текста - принимаем его как дубль.

Надеюсь не слишком сумбурно объяснил суть проблемы - спешу. Если что не понятно - вопросы приветствуются.
 
Последнее редактирование:

Sergodjan

Administrator
Команда форума
Регистрация
05.09.2012
Сообщения
19 803
Благодарностей
8 865
Баллы
113
Есть база текстов. Есть ещё один текст. Нужно проверить его на уникальность относительно этой базы. Реализуемо?

Понимаю, что скорей всего не стандартными методами зенки, но всё же...

Можно также просто сравнить один текст с другим на процент совпадений (потом просто сравню каждый текст из базы с тем самым "ещё одним"))) Но есть ли такая возможность?

Просто если в тексте изменён хотя бы один символ, то обычным сравниванием if его не находит. Хотя там пробел просто лишний, или опечатка. Хотелось бы сравнивать про проценту совпадений. То есть если, например, в тексте больше 98 % процентов совпадений - принимаем его как дубль.

Надеюсь не слишком сумбурно объяснил суть проблемы - спешу. Если что не понятно - вопросы приветствуются.
как вариант - брать по очереди строку за строкой из файла и искать ее вхождение в другом файле, в цикле..
таким образом проверим все строки и можно уже вычислять процент совпадения..
 

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
как вариант - брать по очереди строку за строкой из файла и искать ее вхождение в другом файле, в цикле..
таким образом проверим все строки и можно уже вычислять процент совпадения..
Да уж, слишком сумбурно описал)))

Вот суть:

Есть база текстов. Есть ещё один текст. Нужно проверить его на уникальность относительно этой базы. Реализуемо?
Ещё проще - нужно проверить есть ли этот (или очень похожий) текст уже в базе или его там ещё нет.
 
Последнее редактирование:

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 224
Баллы
113
Реализуемо. Алгоритм основанный на шинглах поможет не тоько найти похожий текст, но еще и определить процент схожести.
Суть метода элементарна:
  1. Канонизируем текст
  2. Разбиваем на шиглы
  3. Высчитываем хэши
  4. Сравниваем
Поищите описание в гугле. На хабре быстро нашлось вот это: http://m.habrahabr.ru/post/65944/
 
  • Спасибо
Реакции: bezvozni

bezvozni

Client
Регистрация
31.03.2013
Сообщения
306
Благодарностей
29
Баллы
28
Реализуемо. Алгоритм основанный на шинглах поможет не тоько найти похожий текст, но еще и определить процент схожести.
Суть метода элементарна:
  1. Канонизируем текст
  2. Разбиваем на шиглы
  3. Высчитываем хэши
  4. Сравниваем
Поищите описание в гугле. На хабре быстро нашлось вот это: http://m.habrahabr.ru/post/65944/
Ого!) Круто) Сколько новых понятий я для себя сегодня узнал)

Ну суть метода то понятна и, действительно, элементарна. Примерно так я себе его и представлял.
Но это теория.

А на практике то как реализовать? По простому. Без глубокого проникновения в синтаксисы кодов.

Может есть какой-нибудь сервис, куда по api отдаёшь 2 текста, а он в ответ процент совпадений?
Может есть готовые куски кода c# или джаваскрипт (что бы вставить в зенку) с понятными пояснениями для чайников?

Но уже какое-то направление я получил - буду гуглить. Спасибо.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)