Как научить зенопостер выделять смысловую нагрузку в текстах?

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28
Всем добра! Вопрос такой, спарсил около 10000 комментариев за последний год + отзывы с сервисов. Везде информация разная. От советов, до простой болтовни и отзывов. Но теперь стоит задача все эти комментарии разделить на смысловые нагрузки и понять о чём речь. Делаю это для анализа целевой аудитории, ее потребностей и интересов( советы полезные по тематике, какие инструменты помогали решить проблему, какие у людей вопросы возникают и сложности). Но вот как выцепить из все этого мусора ценную информацию и автоматизировать? Пробовал чистить через минус слова, так же считал просто кол-во слов и смотрел популярные и всё ровно ерунда какая то... Буду рад любому комментарию кто подскажет логику)))
 

TommyTuta

Client
Регистрация
02.10.2022
Сообщения
106
Благодарностей
47
Баллы
28
Попробуй чатгпт заюзать, дай ему промт и вперед прогонять все свои коментарии)
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28

Zedx

Client
Регистрация
12.06.2018
Сообщения
1 177
Благодарностей
816
Баллы
113
Тогда только ручная модерация
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28
Up p.s. вопрос актуален
 

Zedx

Client
Регистрация
12.06.2018
Сообщения
1 177
Благодарностей
816
Баллы
113
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
Ну есть же какие то общие паттерны, знаки вопроса, просто вопросы, предложения возможно или какие-то общие слова там у меня проблема допустим не знаю: чем остеклить веранду. И возможно есть какая то логика если допустим в тексте есть 2-3 совпадения из ключевых слов допустим как вариант если в комментарии есть 1+2+3 разных слова значит это вынести в раздел интересующих вопросов клиентов. Но слова могут видоизменяется например " чем остеклить веранду" и "каким остеклением остеклить веранду" "как остеклить веранду". Ну я по крайней мере это вижу как то так, но не понимаю как вытаскивать общий корень у слов чтобы объединить их а одну группу
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
И ручками конечно эффективнее, но есть потеря в скорости. Да и в каждом проекте под ключ разбирать ца по косточкам и их хотелки на долго меня не хватит.
 

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
262
Благодарностей
61
Баллы
28
Мне бы хотя бы из просто рассортировать их по группам допустим вопросы по теме, хотелки, боли и мусор где нет общих признаков. И уже из этих материалов ручками просмотреть пару десятков этих комментариев и сделать выводы. Оцифровка желаний ца очень важная всё таки вещь. Так и траф легче гнать)
 

ZULI

Client
Регистрация
09.09.2020
Сообщения
423
Благодарностей
165
Баллы
43
найди человека, дай ему понятную задачу и он тебе их переберет за пару-тройку месяцев. если я правильно калькулирую, за это время без особых напрягов можно все перечитать, а то и быстрее.
 

Zedx

Client
Регистрация
12.06.2018
Сообщения
1 177
Благодарностей
816
Баллы
113
Ну есть же какие то общие паттерны, знаки вопроса, просто вопросы, предложения возможно или какие-то общие слова там у меня проблема допустим не знаю: чем остеклить веранду. И возможно есть какая то логика если допустим в тексте есть 2-3 совпадения из ключевых слов допустим как вариант если в комментарии есть 1+2+3 разных слова значит это вынести в раздел интересующих вопросов клиентов. Но слова могут видоизменяется например " чем остеклить веранду" и "каким остеклением остеклить веранду" "как остеклить веранду". Ну я по крайней мере это вижу как то так, но не понимаю как вытаскивать общий корень у слов чтобы объединить их а одну группу
Ещё нужно учитывать, что слова могут быть написаны с ошибками, или заменены другими неключевыми словами (та, тот, этот, её, его и т.д.)
 

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)