Удаление дубликатов файлов по содержимому

Joined
Jan 10, 2019
Messages
35
Reaction score
12
Points
8
Привет.
Нужно удалить дубликаты файлов.
Имеем папку со 50к текстовых фалов. Естественно, все имеют уникальное название, но содержимое во многих дублируется.
Как правильно организовать чистку?
Пробовал просто брать текста из двух файлов и сравнивать через кубик IF - не срабатывает. (а они идентичны, вроде бы никаких левых символов нет). Возможно из-за относительно большого объема файлов.
Удалять по размеру - не вариант, там у всех +- одинаковый объем.
Находил на форуме тему про сравнение MD5. Вроде тема рабочая. Вручную проверил на нескольких файлах - работает.
Но вот как это все применить на таких больших объемах - не хватает опыта.
Это нужно посчитать MD5 всех файлов, занести их в таблицу, типа первая колонка - урл файла, вторая - его хеш. Удалить по дублям во второй колонке, и скопировать файлы по оставшихся урлах в первой колонке?
Может у кого есть подобный готовый скрипт, или киньте линк на нужную тему. Или есть понимание, как оптимизировать мой набросок.
Заранее благодарен
 

Lord_Alfred

Client
Joined
Oct 9, 2015
Messages
3,916
Reaction score
3,882
Points
113

inotoxic

Client
Joined
Apr 20, 2015
Messages
354
Reaction score
164
Points
43
Может у кого есть подобный готовый скрипт, или киньте линк на нужную тему. Или есть понимание, как оптимизировать мой набросок.
WinMerge - может сравнивать txt файлы
 

Users Who Are Viewing This Thread (Total: 1, Members: 0, Guests: 1)