Всем привет. Нужно удалить дубли из списка, но не все так просто. Во первых список почти 5 гб. Во вторых через кубик удалить дубли не получится так как нужно удалять строки с одинаковым идентификатором и кроме этого самого идентификатора в строке присутствуют другие данные, которые как раз и не позволяют удалить дубли. В ексель есть функция удаления дублей по уникальному идентификатору, но в таблице боле 2 мл строк и это вариант не подходит.
Еще один вариант, который я уже отработал - получить строку, через реджекс получить идентификатор и дальше проверял есть ли строки с данным идентификатором в таблице, если нет ложил строку в другой список. Этот вариант работает, но есть большое НО, чтобы таким методом проверить весь список уйдет несколько месяце.
Может кто знает альтернативный более быстрый вариант удаления дублей по уникальному идентификатору?
Еще один вариант, который я уже отработал - получить строку, через реджекс получить идентификатор и дальше проверял есть ли строки с данным идентификатором в таблице, если нет ложил строку в другой список. Этот вариант работает, но есть большое НО, чтобы таким методом проверить весь список уйдет несколько месяце.
Может кто знает альтернативный более быстрый вариант удаления дублей по уникальному идентификатору?