Удаление дубликатов файлов по содержимому

Регистрация
10.01.2019
Сообщения
32
Благодарностей
11
Баллы
8
Привет.
Нужно удалить дубликаты файлов.
Имеем папку со 50к текстовых фалов. Естественно, все имеют уникальное название, но содержимое во многих дублируется.
Как правильно организовать чистку?
Пробовал просто брать текста из двух файлов и сравнивать через кубик IF - не срабатывает. (а они идентичны, вроде бы никаких левых символов нет). Возможно из-за относительно большого объема файлов.
Удалять по размеру - не вариант, там у всех +- одинаковый объем.
Находил на форуме тему про сравнение MD5. Вроде тема рабочая. Вручную проверил на нескольких файлах - работает.
Но вот как это все применить на таких больших объемах - не хватает опыта.
Это нужно посчитать MD5 всех файлов, занести их в таблицу, типа первая колонка - урл файла, вторая - его хеш. Удалить по дублям во второй колонке, и скопировать файлы по оставшихся урлах в первой колонке?
Может у кого есть подобный готовый скрипт, или киньте линк на нужную тему. Или есть понимание, как оптимизировать мой набросок.
Заранее благодарен
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113

inotoxic

Client
Регистрация
20.04.2015
Сообщения
354
Благодарностей
164
Баллы
43
  • Спасибо
Реакции: ЯуттщЗщыеук

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)