Всем привет, кто может доработать шаблон. Есть шаблон, который сравнивает txt-файлы в одной папке по методу шинглов. И на выходе дает отчет с дублями по каждому файлу. Шаблон сам в описании к сообщению, взят вот из этой темы:
https://zennolab.com/discussion/threads/sravnenie-dvux-tekstov-na-sxozhest.50426/#post-377018
Вопрос - кто сможет доработать шаблон таким образом, чтобы на выходе я имел другую папку, в которой уже будут файлы, прошедшие проверку по шинглам, а дубликатов там не будет? Там вроде не так много делать, как мне кажется, сам просто в C# не разбираюсь. Если сможете сделать, предложения по цене - в личку
Грубо говоря - алгоритм сравнения по шинглам там уже есть, но на выходе в этом шаблоне будет текстовый отчет, а мне никакие отчеты не нужны, мне нужна на выходе папочка, где будут только те файлы, которые прошли проверку по методу шинглов.
как я понял, в шаблоне идет последовательный проход по всем файлам и их сравнение. Не думаю, что в режиме многопоточности это будет работать корректно, но такой алгоритм с работой в один поток меня вполне устраивает
Грубо говоря, для примера - в исходной папке есть 1000 txt-файлов, но среди них есть дубли. В конечной папке пусть будет 654 файла,но дублей среди них согласно заданному в шаблоне коэффициенту уже не будет
https://zennolab.com/discussion/threads/sravnenie-dvux-tekstov-na-sxozhest.50426/#post-377018
Вопрос - кто сможет доработать шаблон таким образом, чтобы на выходе я имел другую папку, в которой уже будут файлы, прошедшие проверку по шинглам, а дубликатов там не будет? Там вроде не так много делать, как мне кажется, сам просто в C# не разбираюсь. Если сможете сделать, предложения по цене - в личку
Грубо говоря - алгоритм сравнения по шинглам там уже есть, но на выходе в этом шаблоне будет текстовый отчет, а мне никакие отчеты не нужны, мне нужна на выходе папочка, где будут только те файлы, которые прошли проверку по методу шинглов.
как я понял, в шаблоне идет последовательный проход по всем файлам и их сравнение. Не думаю, что в режиме многопоточности это будет работать корректно, но такой алгоритм с работой в один поток меня вполне устраивает
Грубо говоря, для примера - в исходной папке есть 1000 txt-файлов, но среди них есть дубли. В конечной папке пусть будет 654 файла,но дублей среди них согласно заданному в шаблоне коэффициенту уже не будет
Вложения
-
20,9 КБ Просмотры: 93