Автоматизированная кластеризация запросов! Котоаватарцы атакуют!

Lexicon · 19.07.2014

Предложите Ваш вариант)

Tritatushki · 19.07.2014

А мне можно скрипт? :bt:

Lexicon · 19.07.2014

)))) Можно))) но смените плиз аватарку)))) вы уже четвертый, кто её пытается увести у владельца)))))))

Tritatushki · 19.07.2014

Lexicon написал(а):
)))) Можно))) но смените плиз аватарку)))) вы уже четвертый, кто её пытается увести у владельца)))))))

Спасибо за скрипт! Аватар сменил

Nick · 25.07.2014

Lexicon написал(а):
R потому что мне он знаком а на шарп я вряд ли перенесу, ну а Матлаб только на картинках видел)))))

Всё это очень круто! Но как насчёт примера? :-)

Lexicon · 25.07.2014

Примера чего?))) могу скрипт в личку запилить))) а примеров сами наделаете)

gs517 · 26.07.2014

А мне можно? с моей грустной аватаркой(

kasper · 26.07.2014

И мне, и мне)

Maikl · 29.07.2014

И мне пожалуйста)

bedl0 · 29.07.2014

Можно и мне глянуть на скрипт

спасибо

Lexicon · 29.07.2014

Все страждущие осчастливлены)

Maikl · 29.07.2014

бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?

alekwuy · 29.07.2014

Ну и мне давай что ли)

Lexicon · 30.07.2014

Maikl написал(а):
бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?

В данной реализации есть с этим проблема) в его расширенной версии, которую я переношу на питон эта возможность будет, но пока все уипрается в ограничения по оперативной памяти, функция, возвращающся степень "тяготения" к кластеру жрет очень много оперативки в R, и поэтому я отказался вот неё в пользу либы mefa.
Количество страниц можно увеличить/уменьшить заменив
k=round(length(levels(data[,1]))/5)
на
k=100500

Zakhar · 30.07.2014

Скрипт можно получить) Спасибо.

Maikl · 30.07.2014

бро, можно ли сделать клвстеризацию без привязки к сайту?
на вход дать список кеев, на виходе получить табличку вида
группа кей
1 кей1
1 кей2
1 кей3
2 кей4
2 кей5

Maikl · 30.07.2014

т.е. мне надо для будущих дорчиков сделать семантику на 100к ключей
готов материально помочь прокту

Maikl · 30.07.2014

т.е. нужно как у этих ребят сделать http://just-magic.org/examples.php
http://prntscr.com/47s3sd

KirillOFF · 30.07.2014

Maikl, тут так и есть. Скрипт привязывается не к нашему сайту, а к выдаче ПС (вроде ничего не напутал). Задавал тот же вопрос Lexicon'у.

Lexicon · 30.07.2014

ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.

Maikl · 30.07.2014

Lexicon написал
@@@Но все же чтобы получить результат, нужно скормить скрипту текстовый фаил следующего содержания:
ключ1*страницасайта1
ключ1*страницасайта2
ключ1*страницасайта3
ключ2*страницасайта1
ключ2*страницасайта2
ключ2*страницасайта3
который вы как раз можете получить при помощи Зенки, ибо никакие другие парсеры его не сделают.@@@
KirillOFF, что вы даете на вход в таком случае?

KirillOFF · 30.07.2014

Для начала нужно спарсить выдачу по всем кеям, которые будем группировать :-)

Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3

Maikl · 30.07.2014

понял

Lexicon · 30.07.2014

KirillOFF написал(а):
Для начала нужно спарсить выдачу по всем кеям, которые будем группировать
Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3

Вот она! формулировка, которую все понимают))))

Maikl · 30.07.2014

у меня есть эти серпы в серппарсере
Если по каждому кею отдать по 100 страниц будет норм? или зажмурится скрипт?

Maikl · 30.07.2014

"ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3"
страницы начинать с http? или domain.com/page?

Maikl · 30.07.2014

Скинь, плз, примар файла (или в чем ошибка).
Если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/
****

Ругается:
incomplete final line found by readTableHeader on 'results.txt'

А если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/

****

т.е. добавили пустую строку в конец
то выдает ошибку, при выполнении следующей команды скрипта:
Ошибка в cutree(cl, k = round(length(levels(data[, 1]))/5), 0) :
элементы 'k' должны быть между 1 и 2

KirillOFF · 30.07.2014

На маленьких файлах ругается, я вроде порядка 1к строк закидывал для теста.

Maikl · 30.07.2014

Lexicon написал(а):
ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.

раскажи плиз как анализируется выдача?
судя по скорости по урлам не бегает система, для чего ни тогда нужны?

Lexicon · 30.07.2014

урлы в данном случае выступают в роли номинального признака - т.е. можно заменить урлы просто любым уникальным набором символов или просто уникальным id (один урл = один id) и ничего в принципе не изменится
Урлы используются для связывания между собой запросов путем построения матрицы расстояний между словами. т.е.
слово 1 часто пересекается со словом 2
слово 2 часто пересекается со словом 3
значит слова 1, 2 и 3 можно положить в один кластер, и при этом вовсе не обязательно, чтобы выдача для слов 1 и 3 была пересекающаяся...
ну несколько кривовато, но для простоты понимания - пусть будет так)

Автоматизированная кластеризация запросов! Котоаватарцы атакуют!

Client

Client

Client

Client

Client

Client

Client

Client

Новичок

Client

Client

Новичок

Client

Client

Client

Новичок

Новичок

Новичок

Client

Client

Новичок

Client

Новичок

Client

Новичок

Новичок

Новичок

Client

Новичок

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)