Автоматизированная кластеризация запросов! Котоаватарцы атакуют!

  • Автор темы Автор темы Lexicon
  • Дата начала Дата начала
Предложите Ваш вариант)
 
А мне можно скрипт? :bt:
 
)))) Можно))) но смените плиз аватарку)))) вы уже четвертый, кто её пытается увести у владельца)))))))
 
Примера чего?))) могу скрипт в личку запилить))) а примеров сами наделаете)
 
А мне можно? с моей грустной аватаркой(
 
И мне, и мне)
 
И мне пожалуйста)
 
Можно и мне глянуть на скрипт :) спасибо
 
Все страждущие осчастливлены)
 
  • Спасибо
Реакции: alekwuy
бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?
 
бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?
В данной реализации есть с этим проблема) в его расширенной версии, которую я переношу на питон эта возможность будет, но пока все уипрается в ограничения по оперативной памяти, функция, возвращающся степень "тяготения" к кластеру жрет очень много оперативки в R, и поэтому я отказался вот неё в пользу либы mefa.
Количество страниц можно увеличить/уменьшить заменив
k=round(length(levels(data[,1]))/5)
на
k=100500
 
  • Спасибо
Реакции: alekwuy
Скрипт можно получить) Спасибо.
 
бро, можно ли сделать клвстеризацию без привязки к сайту?
на вход дать список кеев, на виходе получить табличку вида
группа кей
1 кей1
1 кей2
1 кей3
2 кей4
2 кей5
 
т.е. мне надо для будущих дорчиков сделать семантику на 100к ключей
готов материально помочь прокту
 
Maikl, тут так и есть. Скрипт привязывается не к нашему сайту, а к выдаче ПС (вроде ничего не напутал). Задавал тот же вопрос Lexicon'у.
 
ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.
 
Lexicon написал
@@@Но все же чтобы получить результат, нужно скормить скрипту текстовый фаил следующего содержания:
ключ1*страницасайта1
ключ1*страницасайта2
ключ1*страницасайта3
ключ2*страницасайта1
ключ2*страницасайта2
ключ2*страницасайта3
который вы как раз можете получить при помощи Зенки, ибо никакие другие парсеры его не сделают.@@@
KirillOFF, что вы даете на вход в таком случае?
 
Для начала нужно спарсить выдачу по всем кеям, которые будем группировать :-)
Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3
 
  • Спасибо
Реакции: Lexicon
Для начала нужно спарсить выдачу по всем кеям, которые будем группировать :-)
Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3
Вот она! формулировка, которую все понимают))))
 
у меня есть эти серпы в серппарсере
Если по каждому кею отдать по 100 страниц будет норм? или зажмурится скрипт?
 
"ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3"
страницы начинать с http? или domain.com/page?
 
Скинь, плз, примар файла (или в чем ошибка).
Если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/
****

Ругается:
incomplete final line found by readTableHeader on 'results.txt'

А если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/

****

т.е. добавили пустую строку в конец
то выдает ошибку, при выполнении следующей команды скрипта:
Ошибка в cutree(cl, k = round(length(levels(data[, 1]))/5), 0) :
элементы 'k' должны быть между 1 и 2
 
На маленьких файлах ругается, я вроде порядка 1к строк закидывал для теста.
 
ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.
раскажи плиз как анализируется выдача?
судя по скорости по урлам не бегает система, для чего ни тогда нужны?
 
урлы в данном случае выступают в роли номинального признака - т.е. можно заменить урлы просто любым уникальным набором символов или просто уникальным id (один урл = один id) и ничего в принципе не изменится
Урлы используются для связывания между собой запросов путем построения матрицы расстояний между словами. т.е.
слово 1 часто пересекается со словом 2
слово 2 часто пересекается со словом 3
значит слова 1, 2 и 3 можно положить в один кластер, и при этом вовсе не обязательно, чтобы выдача для слов 1 и 3 была пересекающаяся...
ну несколько кривовато, но для простоты понимания - пусть будет так)
 
  • Спасибо
Реакции: capturis

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)