Сравнение txt-файлов по методу шинглов

leha_los · 30.03.2020

Всем привет, кто может доработать шаблон. Есть шаблон, который сравнивает txt-файлы в одной папке по методу шинглов. И на выходе дает отчет с дублями по каждому файлу. Шаблон сам в описании к сообщению, взят вот из этой темы:

https://zennolab.com/discussion/threads/sravnenie-dvux-tekstov-na-sxozhest.50426/#post-377018

Вопрос - кто сможет доработать шаблон таким образом, чтобы на выходе я имел другую папку, в которой уже будут файлы, прошедшие проверку по шинглам, а дубликатов там не будет? Там вроде не так много делать, как мне кажется, сам просто в C# не разбираюсь. Если сможете сделать, предложения по цене - в личку

Грубо говоря - алгоритм сравнения по шинглам там уже есть, но на выходе в этом шаблоне будет текстовый отчет, а мне никакие отчеты не нужны, мне нужна на выходе папочка, где будут только те файлы, которые прошли проверку по методу шинглов.

как я понял, в шаблоне идет последовательный проход по всем файлам и их сравнение. Не думаю, что в режиме многопоточности это будет работать корректно, но такой алгоритм с работой в один поток меня вполне устраивает

Грубо говоря, для примера - в исходной папке есть 1000 txt-файлов, но среди них есть дубли. В конечной папке пусть будет 654 файла,но дублей среди них согласно заданному в шаблоне коэффициенту уже не будет

Поиск

Сравнение txt-файлов по методу шинглов

leha_los

Client

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)