Structured Output от LLM в ZennoPoster: кейсы + связка с LM Studio

Darvel · 23.12.2025

Проект крутой, но модели пока очень тупые, коряво пишут, с ошибками, могут сильно тупить, выдавать кракозябры и т.п Пару недель назад тестил все самые последние - пока даже близко не GPT3, а прям хорошая это 4о, ну и 5-ая. Куда профитнее сделать авторизацию в какой-нибудь квен или дипсик, в идеале сделать резерв, чтобы если вдруг что-то с одним случилось - писали во второй(отказоустойчивость). Да, чуть дольше, но качество просто в разы лучше. А так, молодец, когда модели года через 2-3 хотя бы до уровня гпт 3 дотянут - будет юзабельно. Ну если сделать поправку на то, что можно в LM подключать API, то это уже дело другое, но тут уже не бесплатно получается, и тогда уже проще просто делать запрос по API непосредственно к GPT и парстить ответ.

Darvel · 25.12.2025

LaGir сказал(а):
Переделать под обращение к API проприетарных моделей, вместо обращения к локальному API LM Studio – дело нескольких минут. Для прода, т.е. для уже готового отлаженного проекта я поддерживаю подход использования легких фронтирных моделей, типа Gemini Flash, Claude Haiku. Это и дёшево, и сами такие последние модели отличные, и не надо иметь машину/сервер с кучей [видео]памяти.
Однако же на локальных моделях проще заниматься именно разработкой и отладкой, плюс это бесплатно. Поэтому в качестве локального и сервера и поставщика моделей выбрана LM Studio. Ну и опять же она знакома многим людям по другим статьям (не только моим) и по другим вариантам использования.

Не знаю что у вас за кейсы, и насколько хорош ваш подход к тестированию. Но мой личный опыт использования мелких моделей с опенсорса совершенно другой, как и тот, что видел-читал у других в сети, кто использует опенсорс в проде по тем или иным причинам.
Если на тему того, догнали ли средние модели линеек Qwen 3 и Gemma 3 уровня gpt-4o в большинстве среднестатистических задач – дискутировать ещё можно. То вот сравнение с более ранними проприетарными моделями как правило не в их пользу будет. А уж сравнение с gpt-3 совсем ни в какие ворота.

Тут имеет смысл чем-то конкретным подкрепить свои слова. Тесты в своих кейсах я по понятным причинам не могу показать, а релизы и тесты этих моделей по бенчмаркам слишком разнесены по времени ввиду их дат выхода. Поэтому решил сходить глянуть на лидерборд LMArena: https://lmarena.ai/ru/leaderboard/text

Тесты тестами - там использовалось на очень мощном железе, в вакууме и заготовленными промптами заранее, которые довольно хорошо отрабатывают + в целом оценка модели по параметрам. Я же проверял на практике на 7800x3d, 3090 и 64 оперативы. И могу сказать, что они периодически пишут некоторые слова транслитом/кракозябрами, типо иврита или тайского, теряют контекст при большом, но разрешенном объеме текста и т.п. Я задавал базовые для моей работы запросы вроде перевода текста, суммаризации статьи, переписать статью, добавив пару новых фактов, разные заголовки, составить промпты и т.п. - то, что я использую каждый день в GPT. И уровень пока не для стабильной работы. Мне тут скинули, что вышла новая модель, которая реально крутая и локальная, но пока не тестил ее, но все предыдущие, включая квен, дипсик и другие, которые в топе загрузок - пока не удовлетворяют минимальным требованиям для стабильной работы, а уж тем более в автоматическом режиме.
Я больше писал это как совет для тех, кто скачает и захочет работать с шаблоном, что лучше сделать запросы к апи, например GPT или любой, какая нравится, а не через локальные, если нужна точность и без косяков и перепроверок.

bashka · 03.01.2026

Darvel сказал(а):
Проект крутой, но модели пока очень тупые, коряво пишут, с ошибками, могут сильно тупить, выдавать кракозябры и т.п Пару недель назад тестил все самые последние - пока даже близко не GPT3, а прям хорошая это 4о, ну и 5-ая. Куда профитнее сделать авторизацию в какой-нибудь квен или дипсик, в идеале сделать резерв, чтобы если вдруг что-то с одним случилось - писали во второй(отказоустойчивость). Да, чуть дольше, но качество просто в разы лучше. А так, молодец, когда модели года через 2-3 хотя бы до уровня гпт 3 дотянут - будет юзабельно. Ну если сделать поправку на то, что можно в LM подключать API, то это уже дело другое, но тут уже не бесплатно получается, и тогда уже проще просто делать запрос по API непосредственно к GPT и парстить ответ.

mistral дает апи, пробовал делать чат боты с интеграцией в телеграм ботов, хорошо отрабатывало. Бесплатно, и не жрет мощности локалхоста. Чем хуже джипити и других аналогов ?

bashka · 03.01.2026

LaGir сказал(а):
Спасибо. Тогда прокомментирую ваше сообщение, но не как ответ вам, а скорее как тоже дополнительную информацию именно по использованию локальных моделей.
Возможно, кому-то из читающих пригодится, т.к. для немалого числа задач и локальных с головой хватает, а галлюцинации полностью и в проприетарных пока не победили. Плюс, мало ли что грядующий год готовит, в каких-то местах вполне может появится инет чисто по белым спискам.

Тут отмечу, что мощность железа не влияет на качество ответов моделей, по сути лишь на скорость генерации токенов. Объём памяти и видеопамяти, соответственно – на то, какого размера модель и с каким размером контекста получится запустить.
Именно на качество ответов напрямую влияет выбор модели, какая именно версия используется (базовая, файнтюн и т.д.), оригинальная или квантованная. Часто в софте для инференса по умолчанию предлагается скачать/запустить модель с квантованием в 4 бит (Q4_K_M как правило). Это сильно экономит память и снижает требования по её объёму, но качество модели падает куда в меньшей процентовке, а то и вовсе на уровне погрещности. Однако – качество ответов всё же падает, и на некоторых задачах и с некоторыми моделями это прям сильно ощущается. Иными словами, если не знать таких особенностей, можно легко забраковать отдельную модель или например посчитать, что её создатели врут и накручивают бенчмарки.

Тут прокоментирую, что в большой мере этим страдают китайские модели. Из остальных – в большинстве своём это касается просто маленьких, или квантованных слишком сильно (на каком именно кванте начнут появлятся артефакты – как правило зависит от конкретной модели, т.е. без тестов ).
Из хороших моделей тут опять же вспомню гугловские Gemma 3, ни разу не видел у них таких проблем, плюс многие считают именно эти модели лучшими для работы/генерации контента конкретно на русском языке.

У китайских моделей, кстати, проблемы с языками бывают и на больших моделях, которыми пользуются у них в чате/через API.
Например, занятный момент был, что вышедшая на рубеже 2024/2025 Deepseek v3 отлично работала с русским языком, а вот после её обновления до v3.1 летом 25-го пользователи стали жаловаться, что у модели стали проскакивать некоторые слова в ответах на других языках. Т.е. модель стала лучше, но похоже как-то сказалось, что её ещё больше затачивали под "родную" аудиторию на китайском языке, что в какой-то мере негативно повлияло на использование на русском.

В прошлый раз ещё кстати не упоминал модели gpt-oss, которые выпустили в опенсорс OpenAI этим летом. Тоже весьма хорошие модели, младшая причём умещается в 12 Гб видеопамяти. Проблем с русским, как и других артефактов не замечал. Из минусов в использовании и подключении к Zenno скорее то, что это модель для ризонинга, т.е. заточена под узкий "не творческий" спектр задач, который при подключении к ZP вряд ли кто использует.

тестили mistral ai через их апи?

tsup · 03.02.2026

LaGir сказал(а):
Из минусов в использовании и подключении к Zenno скорее то, что это модель для ризонинга, т.е. заточена под узкий "не творческий" спектр задач

Зря вы так :-)

Для написания статей на сайт, например, reasoning-модели очень хороши: они намного лучше учитывают все требования в запросе, меньше повторяются в рамках одной статьи, и делают меньше фактических ошибок. В первую очередь из-за того, что в процессе "раздумий" несколько раз повторяют статью, проверяют последовательно соответствие требованиям и т.д.

Darvel сказал(а):
но модели пока очень тупые, коряво пишут, с ошибками, могут сильно тупить, выдавать кракозябры и т.п Пару недель назад тестил все самые последние - пока даже близко не GPT3

Darvel сказал(а):
Я же проверял на практике на 7800x3d, 3090 и 64 оперативы. И могу сказать, что они периодически пишут некоторые слова транслитом/кракозябрами

Скорее всего, вы либо использовали китайскую модель (deepseek например, или какую-либо модель основанную на qwen). Либо сильную квантизацию модели. Либо модели всё же не были последними. Ещё могут быть неправильные настройки: например, слишком высокая temperature.
На самом же деле современные модели на 24gb vram (3090), даже без выхода в RAM, выдают уж точно не сравнимое с GPT-3 качество. Без лишних символов и прочих проблем.

Поиск

Structured Output от LLM в ZennoPoster: кейсы + связка с LM Studio

LaGir

Client

Вложения

Darvel

Client

LaGir

Client

Darvel

Client

LaGir

Client

bashka

Client

bashka

Client

LaGir

Client

tsup

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)