[SOLVED] Сделать бы парсер названий веток нашего сообщества и упорядочить сначала один раздел))

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Работа, конечно, более, чем значительная — по словам суметь упорядочить, соединить названия веток и не только.
Однако тот, кто сделает такую работу(потому как именно здешний форум легко упорядочить), затем сможет упорядочивать и другие форумы, сообщества, объёмы накопленного беспорядка данных на личных вычислительных устройствах и пр..
Продать такой шаблон можно довольно дорого и/или ооочень многим, т.к. польза описанного направления значительная.
Трудности создания такого бота видятся нескончаемыми, но именно наше сообщество может их преодолеть легко, сообща дорабатывая шаблон. Назову его the Order.

Будет хорошо вместе в данной ветке наработать, затем создать упорядочиватель.
Если у кого есть набросок шаблона, бросайте сюда в открытый доступ. Кто может — улучшайте.
 
Последнее редактирование:

Эрнесто Че Гевара

Пользователь
Регистрация
16.11.2017
Сообщения
50
Благодарностей
10
Баллы
8

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Эрнесто Че Гевара какие-либо сделки.

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Сложная задача, т.к. просто решая её "в лоб" - в итоге будет каша. Если пытаться как-то структурировать без применения хотя бы лингвистических обработок, то проще всего отталкиваться от тегов, но опять же - придется делать очень мощный "краулер", т.к. информация имеет место устаревать, а парсить постоянно форум - ну та ещё затея )
 

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Сложная задача, т.к. просто решая её "в лоб" - в итоге будет каша. Если пытаться как-то структурировать без применения хотя бы лингвистических обработок, то проще всего отталкиваться от тегов, но опять же - придется делать очень мощный "краулер", т.к. информация имеет место устаревать, а парсить постоянно форум - ну та ещё затея )
Вы по-привычке берётесь даже за сложное )) Причём называете точные пути приведения не в порядок, а вообще к совершенству )) Причём получается ))
Всё проще. Шаг за шагом.

Если, например, перебирать парсером названия веток одного раздела, начиная с последних веток, всё упрощается.
Запросто можно даже можно разбирать названия веток на отдельные слова или выражения, по которым перебирать остальные названия веток одного из разделов.
Страницы пощёлкать и названия веток собрать, затем сделать что-то наподобие AZ, перебрав ячейки таблицы. И выложить сюда, здесь улучшат быстро.
Скорее стоит задача увлечь форумчан, чтобы получился crowdsourcing.
Я новичёк с послужным списком в полшаблона(действительно всего лишь полшаблона), я могу сделать сбор названий веток, кроме первых х))
 

Эрнесто Че Гевара

Пользователь
Регистрация
16.11.2017
Сообщения
50
Благодарностей
10
Баллы
8

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Эрнесто Че Гевара какие-либо сделки.

Сложная задача, т.к. просто решая её "в лоб" - в итоге будет каша. Если пытаться как-то структурировать без применения хотя бы лингвистических обработок, то проще всего отталкиваться от тегов, но опять же - придется делать очень мощный "краулер", т.к. информация имеет место устаревать, а парсить постоянно форум - ну та ещё затея )
я кстати как то думал спарсить форум что бы прикрутить нормальный поиск
то есть спарсить целиком совсем
 

Lord_Alfred

Client
Регистрация
09.10.2015
Сообщения
3 916
Благодарностей
3 867
Баллы
113
Вы по-привычке берётесь даже за сложное )) Причём называете точные пути приведения не в порядок, а вообще к совершенству )) Причём получается ))
Всё проще. Шаг за шагом.
Спасибо)
Шаг за шагом - сложно, если хотите, то, конечно, пробуйте! Но, имхо, будет много ручной работы..

я кстати как то думал спарсить форум что бы прикрутить нормальный поиск
то есть спарсить целиком совсем
Недавно ведь поиск от гугла прикрутили, чтоб можно было юзать вместе со стандартным. Вообще, полнотекстовый поиск - сложная задача, даже если заюзать http://sphinxsearch.com/ или http://www.elastic.co/products/elasticsearch
 

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Раздел для новичков велик. Вопросов сейчас 500 страниц, один и тот же вопрос в десятках веток, а ведь мы такое легко упорядочим.
 

Эрнесто Че Гевара

Пользователь
Регистрация
16.11.2017
Сообщения
50
Благодарностей
10
Баллы
8

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Эрнесто Че Гевара какие-либо сделки.

Спасибо)
Недавно ведь поиск от гугла прикрутили, чтоб можно было юзать вместе со стандартным. Вообще, полнотекстовый поиск - сложная задача, даже если заюзать http://sphinxsearch.com/ или http://www.elastic.co/products/elasticsearch
для поиска нужно создавать свою морфологическую базу
что то типа синонимов
экшен = сниппет = кубик = квадратик
 

Эрнесто Че Гевара

Пользователь
Регистрация
16.11.2017
Сообщения
50
Благодарностей
10
Баллы
8

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Эрнесто Че Гевара какие-либо сделки.

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28
Т.е. есть смысл мне создать в разделе для новичков темку "морфологическая база".
Шаг за шагом. Crowdsorcing и не такое делал.
 

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28

smartwisard

Client
Регистрация
17.01.2017
Сообщения
824
Благодарностей
83
Баллы
28

Эрнесто Че Гевара

Пользователь
Регистрация
16.11.2017
Сообщения
50
Благодарностей
10
Баллы
8

Обращаем Ваше внимание на то, что данный пользователь заблокирован.
Не рекомендуем проводить с Эрнесто Че Гевара какие-либо сделки.

Кто просматривает тему: (Всего: 3, Пользователи: 0, Гости: 3)