Как научить зенопостер выделять смысловую нагрузку в текстах?

Дмитрий202020

Активный пользователь
Регистрация
15.09.2020
Сообщения
295
Реакции
69
Баллы
28
Всем добра! Вопрос такой, спарсил около 10000 комментариев за последний год + отзывы с сервисов. Везде информация разная. От советов, до простой болтовни и отзывов. Но теперь стоит задача все эти комментарии разделить на смысловые нагрузки и понять о чём речь. Делаю это для анализа целевой аудитории, ее потребностей и интересов( советы полезные по тематике, какие инструменты помогали решить проблему, какие у людей вопросы возникают и сложности). Но вот как выцепить из все этого мусора ценную информацию и автоматизировать? Пробовал чистить через минус слова, так же считал просто кол-во слов и смотрел популярные и всё ровно ерунда какая то... Буду рад любому комментарию кто подскажет логику)))
 
Попробуй чатгпт заюзать, дай ему промт и вперед прогонять все свои коментарии)
 
Up p.s. вопрос актуален
 
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
 
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
Ну есть же какие то общие паттерны, знаки вопроса, просто вопросы, предложения возможно или какие-то общие слова там у меня проблема допустим не знаю: чем остеклить веранду. И возможно есть какая то логика если допустим в тексте есть 2-3 совпадения из ключевых слов допустим как вариант если в комментарии есть 1+2+3 разных слова значит это вынести в раздел интересующих вопросов клиентов. Но слова могут видоизменяется например " чем остеклить веранду" и "каким остеклением остеклить веранду" "как остеклить веранду". Ну я по крайней мере это вижу как то так, но не понимаю как вытаскивать общий корень у слов чтобы объединить их а одну группу
 
Ну вот сам подумай логически - что является в данном случае ценной информацией? Это какой-то абстрактный текст, ценным который делает только субъективное восприятие каждого в отдельности. Т.е. осознать ценность этой информации может только человек, для компьютера это будет всего лишь набор букв. Так что тут только 2 варианта - или использовать GPT, который натаскан на человеческих текстах и сможет определить некоторую часть этой информации или ручная модерация, которая даст наилучший результат.
И ручками конечно эффективнее, но есть потеря в скорости. Да и в каждом проекте под ключ разбирать ца по косточкам и их хотелки на долго меня не хватит.
 
Мне бы хотя бы из просто рассортировать их по группам допустим вопросы по теме, хотелки, боли и мусор где нет общих признаков. И уже из этих материалов ручками просмотреть пару десятков этих комментариев и сделать выводы. Оцифровка желаний ца очень важная всё таки вещь. Так и траф легче гнать)
 
найди человека, дай ему понятную задачу и он тебе их переберет за пару-тройку месяцев. если я правильно калькулирую, за это время без особых напрягов можно все перечитать, а то и быстрее.
 
Ну есть же какие то общие паттерны, знаки вопроса, просто вопросы, предложения возможно или какие-то общие слова там у меня проблема допустим не знаю: чем остеклить веранду. И возможно есть какая то логика если допустим в тексте есть 2-3 совпадения из ключевых слов допустим как вариант если в комментарии есть 1+2+3 разных слова значит это вынести в раздел интересующих вопросов клиентов. Но слова могут видоизменяется например " чем остеклить веранду" и "каким остеклением остеклить веранду" "как остеклить веранду". Ну я по крайней мере это вижу как то так, но не понимаю как вытаскивать общий корень у слов чтобы объединить их а одну группу
Ещё нужно учитывать, что слова могут быть написаны с ошибками, или заменены другими неключевыми словами (та, тот, этот, её, его и т.д.)
 

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)