Ищу KeyWordKeeper, а лучше его прокаченный аналог. Обсуждаем софт для обработки тестовых файлов.

  • Автор темы Автор темы LightWood
  • Дата начала Дата начала
Для обработки файлов пользуюсь пингвином + удобная функция кластеризации - разбить запросы по группам
 
А бесплатного пингвина или аналогов никто не видел?
Мне надо файл слепить большой или перемешать раз в месяц. неужели 800р это стоит...
 
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много
 
gnuwin32
Или сожми в архив и залей на какой-то быстрый FTP/Облако файлы и урл в личку, я попробую сделать для теста тем же пингвином на серваке с 128GB ОЗУ.
 
gnuwin32
Или сожми в архив и залей на какой-то быстрый FTP/Облако файлы и урл в личку, я попробую сделать для теста тем же пингвином на серваке с 128GB ОЗУ.
Не поможет, тестил на серваке с 80 гб озу. Проблема в особенностях шарпа, как мне обьяснил разраб пингвина
 
Последнее редактирование:
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много


а что, KeyWordKeeper не справляется?
 
Друзья, апну тему. Подскажите чем можно удалить дубли в файлах 10гб+, где уникальных будет 6-8гб. Пингвин не справляется, хотя всех ресурсов ему хватает. Заметил зависимость пингвина от того, сколько будет весить файл в остатке. Например, файл 10 гб, остаток без дублей 2 - нормально отрабатывает. Если остаток больше 5гб(предположительно) - обрывается на нехватке памяти, хотя ее много

EmEditor попробуй

5b0c37da34.jpg
 
спасибо за ответ

ограничение какое имеет значение?
Точно не помню, если попытаться выбрать большой файл для удаления дублей - выбьет ошибку что строк много, и там будет указано количество строк
 
  • Спасибо
Реакции: AGAT
Есть файл на 17 гиг, не могу найти варианты удаления дублей строк. То что в теме - ничего не помогло
Если там ничего сверхсекретного то сожми архивом по максимум, залей на облако или фтп и бросай в личку. 90% ставлю что смогу почистить дубли методом из описанных.
 
Есть файл на 17 гиг, не могу найти варианты удаления дублей строк. То что в теме - ничего не помогло
https://unifiedlm.com/DownloadCLI

Если имеем на тачке ~16гб озу + файл подкачки - юзай sort64.exe
Если RAM значительно меньше чем размер файла - sort64lm.exe (low memory)

C#:
Развернуть Свернуть Копировать
sort64.exe -i файл.тхт -u -t 32

-i = путь к файлу
-u = удалять дубли
-t = кол-во thread (равное кол-ву core cpu)


 
Последнее редактирование:
Хочешь сделать хорошо - сделай сам. Держите
Прога объединяет файлы и соединяет в один без дублей
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)