Автоматизированная кластеризация запросов! Котоаватарцы атакуют!

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Предложите Ваш вариант)
 

Tritatushki

Client
Регистрация
08.04.2010
Сообщения
70
Благодарностей
19
Баллы
8
А мне можно скрипт? :bt:
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
)))) Можно))) но смените плиз аватарку)))) вы уже четвертый, кто её пытается увести у владельца)))))))
 

Tritatushki

Client
Регистрация
08.04.2010
Сообщения
70
Благодарностей
19
Баллы
8
  • Спасибо
Реакции: Lexicon

Nick

Client
Регистрация
22.07.2014
Сообщения
1 982
Благодарностей
817
Баллы
113

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Примера чего?))) могу скрипт в личку запилить))) а примеров сами наделаете)
 

gs517

Client
Регистрация
18.05.2013
Сообщения
138
Благодарностей
15
Баллы
18
А мне можно? с моей грустной аватаркой(
 

kasper

Client
Регистрация
01.04.2012
Сообщения
139
Благодарностей
15
Баллы
18
И мне, и мне)
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
И мне пожалуйста)
 

bedl0

Client
Регистрация
07.12.2012
Сообщения
244
Благодарностей
56
Баллы
28
Можно и мне глянуть на скрипт :-) спасибо
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Все страждущие осчастливлены)
 
  • Спасибо
Реакции: alekwuy

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?
 

alekwuy

Client
Регистрация
06.04.2013
Сообщения
1 631
Благодарностей
461
Баллы
83

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
бро, спасибище
онин вопрос: можно ли как то выставить коэф. "гравитации" что бы если его увеличить уменьшилось бы кол-во страниц?
В данной реализации есть с этим проблема) в его расширенной версии, которую я переношу на питон эта возможность будет, но пока все уипрается в ограничения по оперативной памяти, функция, возвращающся степень "тяготения" к кластеру жрет очень много оперативки в R, и поэтому я отказался вот неё в пользу либы mefa.
Количество страниц можно увеличить/уменьшить заменив
k=round(length(levels(data[,1]))/5)
на
k=100500
 
  • Спасибо
Реакции: alekwuy

Zakhar

Client
Регистрация
13.01.2012
Сообщения
13
Благодарностей
2
Баллы
3
Скрипт можно получить) Спасибо.
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
бро, можно ли сделать клвстеризацию без привязки к сайту?
на вход дать список кеев, на виходе получить табличку вида
группа кей
1 кей1
1 кей2
1 кей3
2 кей4
2 кей5
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
т.е. мне надо для будущих дорчиков сделать семантику на 100к ключей
готов материально помочь прокту
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
Maikl, тут так и есть. Скрипт привязывается не к нашему сайту, а к выдаче ПС (вроде ничего не напутал). Задавал тот же вопрос Lexicon'у.
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
Lexicon написал
@@@Но все же чтобы получить результат, нужно скормить скрипту текстовый фаил следующего содержания:
ключ1*страницасайта1
ключ1*страницасайта2
ключ1*страницасайта3
ключ2*страницасайта1
ключ2*страницасайта2
ключ2*страницасайта3
который вы как раз можете получить при помощи Зенки, ибо никакие другие парсеры его не сделают.@@@
KirillOFF, что вы даете на вход в таком случае?
 

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
Для начала нужно спарсить выдачу по всем кеям, которые будем группировать :-)
Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3
 
  • Спасибо
Реакции: Lexicon

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
понял
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
Для начала нужно спарсить выдачу по всем кеям, которые будем группировать :-)
Если быть точнее, то список такой:
ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3
Вот она! формулировка, которую все понимают))))
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
у меня есть эти серпы в серппарсере
Если по каждому кею отдать по 100 страниц будет норм? или зажмурится скрипт?
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
"ключ1*страница_из_выдачи_1
ключ1*страница_из_выдачи_2
ключ1*страница_из_выдачи_3"
страницы начинать с http? или domain.com/page?
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
Скинь, плз, примар файла (или в чем ошибка).
Если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/
****

Ругается:
incomplete final line found by readTableHeader on 'results.txt'

А если файл вида:
*****
test car*http://test.com/serp/statistic/group/
test bobo*http://test.com/serp/statistic/group/

****

т.е. добавили пустую строку в конец
то выдает ошибку, при выполнении следующей команды скрипта:
Ошибка в cutree(cl, k = round(length(levels(data[, 1]))/5), 0) :
элементы 'k' должны быть между 1 и 2
 

KirillOFF

Client
Регистрация
18.12.2010
Сообщения
1 127
Благодарностей
517
Баллы
113
На маленьких файлах ругается, я вроде порядка 1к строк закидывал для теста.
 

Maikl

Новичок
Регистрация
30.05.2013
Сообщения
18
Благодарностей
0
Баллы
1
ну да)
Вместо того чтобы городить собственный морфологический, синтаксический, морфологический и поведенческие анализы - мы просто трясем яшку или гугл и выбиваем из него приблизительные результаты. Т.е. поисковая система все уже сделала за нас))) а мы только анализируем её выдачу и интерпретируем результаты.
т.е. иметь собственный сайт для анализа семантики не обязательно))) нужно иметь только свой список ключевых слов.
раскажи плиз как анализируется выдача?
судя по скорости по урлам не бегает система, для чего ни тогда нужны?
 

Lexicon

Client
Регистрация
27.12.2012
Сообщения
1 775
Благодарностей
901
Баллы
113
урлы в данном случае выступают в роли номинального признака - т.е. можно заменить урлы просто любым уникальным набором символов или просто уникальным id (один урл = один id) и ничего в принципе не изменится
Урлы используются для связывания между собой запросов путем построения матрицы расстояний между словами. т.е.
слово 1 часто пересекается со словом 2
слово 2 часто пересекается со словом 3
значит слова 1, 2 и 3 можно положить в один кластер, и при этом вовсе не обязательно, чтобы выдача для слов 1 и 3 была пересекающаяся...
ну несколько кривовато, но для простоты понимания - пусть будет так)
 
  • Спасибо
Реакции: capturis

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)