сравнения списков

orka13 · 25.12.2023

Могу разве что подсказать как отсортировать списки где наиболее уникальные строки относительно тех где много общих строк:

1. Все строки списков в 1 файл. Дубли не удаляем, будет что-то типа:

Код:

строка 1
строка 2
строка 3
строка 3
строка 3
строка 4
строка 4

2. Прогоняем файл шаблон Группирование строк по популярности Csharp.zp (прикрепил к посту). Он покажет какие строки наиболее часто встречаются:
В таблице во второй колонке количество встреч строки в общем файле. Вот это как раз будет наш «бал популярности».

шаб на зенопостере, на вход подаем текстовик с дублями, на выходе получаем ексель таблицу где во втором столбце количество строк в файле таких, а в третьем их процентное соотношение.

3. Клепай свой шаб, который берет твой список, и формирует с него таблицу на 2 столбца, где в первом столбце оригинальная строка, а во втором столбце ее «бал популярности» (дергаем этот бал для каждой строки из второй колонки таблицы предыдущего шаба, предварительно сделав поиск по таблице по первому столбцу).
В конце шаблона для каждого списка суммируем значения во втором столбце и делим его на количество строк списка. Хотя раз они у тебя одинаковые, то деление можно пропустить.
Чем выше полученный результат, тем больше в списке «популярных строк», тем он более похож на других. Чем меньше показатель, тем список уникальное.
Хотя результат будет искажен чуть если в списке есть строка с очень большим показателем популярности. Тогда можно вручную в таблице подправить «балы популярности», например где «1» поставить «0», а где все что «>=2» поставить «1». Тогда сразу будет понятно, что если в спике в сумме "100" балов, то в нем 100 строк которые есть и в других списках, а если "0", то список полностью уникален.

Поиск

сравнения списков

baracuda

Client

orka13

Client

Вложения

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)