Задача вычислить дубликаты среди 12-ти винчестверов с файлами, около 50 миллионов файлов формата MS Office, pdf и txt.
Ни одна программа поиска дублей с таким не справится, вот задумался, можно ли сначала создать БД таблицу всех хешей файлов, и поштучно в спокойном режиме проектом в Зеннопостер поудалять дубли, сравнивая хеши запросами к таблице БД (поправьте если идея неправильная).
Вопрос возник, каким стандартом хеширования воспользоваться? И есть ли решение для готового сниппета в С#
Ни одна программа поиска дублей с таким не справится, вот задумался, можно ли сначала создать БД таблицу всех хешей файлов, и поштучно в спокойном режиме проектом в Зеннопостер поудалять дубли, сравнивая хеши запросами к таблице БД (поправьте если идея неправильная).
Вопрос возник, каким стандартом хеширования воспользоваться? И есть ли решение для готового сниппета в С#