- Регистрация
- 10.01.2019
- Сообщения
- 32
- Благодарностей
- 11
- Баллы
- 8
Привет.
Нужно удалить дубликаты файлов.
Имеем папку со 50к текстовых фалов. Естественно, все имеют уникальное название, но содержимое во многих дублируется.
Как правильно организовать чистку?
Пробовал просто брать текста из двух файлов и сравнивать через кубик IF - не срабатывает. (а они идентичны, вроде бы никаких левых символов нет). Возможно из-за относительно большого объема файлов.
Удалять по размеру - не вариант, там у всех +- одинаковый объем.
Находил на форуме тему про сравнение MD5. Вроде тема рабочая. Вручную проверил на нескольких файлах - работает.
Но вот как это все применить на таких больших объемах - не хватает опыта.
Это нужно посчитать MD5 всех файлов, занести их в таблицу, типа первая колонка - урл файла, вторая - его хеш. Удалить по дублям во второй колонке, и скопировать файлы по оставшихся урлах в первой колонке?
Может у кого есть подобный готовый скрипт, или киньте линк на нужную тему. Или есть понимание, как оптимизировать мой набросок.
Заранее благодарен
Нужно удалить дубликаты файлов.
Имеем папку со 50к текстовых фалов. Естественно, все имеют уникальное название, но содержимое во многих дублируется.
Как правильно организовать чистку?
Пробовал просто брать текста из двух файлов и сравнивать через кубик IF - не срабатывает. (а они идентичны, вроде бы никаких левых символов нет). Возможно из-за относительно большого объема файлов.
Удалять по размеру - не вариант, там у всех +- одинаковый объем.
Находил на форуме тему про сравнение MD5. Вроде тема рабочая. Вручную проверил на нескольких файлах - работает.
Но вот как это все применить на таких больших объемах - не хватает опыта.
Это нужно посчитать MD5 всех файлов, занести их в таблицу, типа первая колонка - урл файла, вторая - его хеш. Удалить по дублям во второй колонке, и скопировать файлы по оставшихся урлах в первой колонке?
Может у кого есть подобный готовый скрипт, или киньте линк на нужную тему. Или есть понимание, как оптимизировать мой набросок.
Заранее благодарен