Группировка похожих строк. Как?

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Есть текстовый файл в формате:

URL tab показатели

Необходимо найти все одинаковые URL и объединить в один массив данных.

Скажем, было 5 одинаковых URL. На выходе получаем 1 URL с показателями 5-ти строк через запятую.

Мне видится, что нужно начинать с сортировки списка, так я получу «блоки» идентичных урлов с разными показателями, а что дальше хз. Есть идеи?
 
Последнее редактирование:

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Показатели числовые?
Если да - можно просто упаковать в вектора и построить матрицу попарных расстояний и брать те страницы, которые имеют минимальное или нулевое расстояние
 
  • Спасибо
Реакции: Solus

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Показатели числовые?
Если да - можно просто упаковать в вектора и построить матрицу попарных расстояний и брать те страницы, которые имеют минимальное или нулевое расстояние
Показатели - числа, ключевые слова, дата
 

zortexx

Client
Регистрация
19.09.2011
Сообщения
2 520
Благодарностей
1 226
Баллы
113
Разложить на уровни вложенности. Слегка перепутал. Но суть та же. Собираем многомерный массив. На мой взгляд так будет проще всего.
 

toxass

Client
Регистрация
18.03.2010
Сообщения
280
Благодарностей
12
Баллы
18
Готов заплатить за решение.
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)