Кто какие ИИ юзает?

promusik

Client
Регистрация
05.02.2021
Сообщения
74
Благодарностей
24
Баллы
8
Кто какие модели юзает локально? Опрос делать не буду, давайте в комментах обсудим?
Я смотрел на deepseek-r1:14b, запускал в паре вместе с thinkverse/towerinstruct, используя последнюю для перевода промпта и ответа. В итоге deepseek-r1:14b очень много говна льет и долго рассуждает... 80-95% мусорного текста. Думал на llama3.2., но она слишком глуповатая что-ли...
Вы что юзаете?
 
  • Спасибо
Реакции: izubr

samsonnn

Client
Регистрация
02.06.2015
Сообщения
2 043
Благодарностей
1 847
Баллы
113
В итоге deepseek-r1:14b очень много говна льет и долго рассуждает... 80-95% мусорного текста.
Температуру регулируйте, настройки модели для кого сделаны? Посмотрите в интернете как правильно составлять промты для моделей. Настройте правильно модель под себя и будет вам счастье!
 
  • Спасибо
Реакции: izubr

zarufakis

Client
Регистрация
22.03.2019
Сообщения
2 028
Благодарностей
1 453
Баллы
113
  • Спасибо
Реакции: promusik

Astraport

Client
Регистрация
01.05.2015
Сообщения
5 070
Благодарностей
4 584
Баллы
113
будет вам счастье
Видяха нужна под 300к, тогда будет счастье и лучше не одна. А артефакты у deepseek или qwen настройками не фиксятся. Проверять как бы не вставила иероглифы слишком трудозатратно.
 
  • Спасибо
Реакции: promusik

Astraport

Client
Регистрация
01.05.2015
Сообщения
5 070
Благодарностей
4 584
Баллы
113
По соотношению скорость/качество для меня сейчас идеальная модель.
mistral-7b-instruct-v0.2.Q6_K.gguf
Я тоже юзаю mistral-small-24b-instruct-2501 для небольших задач типа генерация тайтлов или саммариз.
 
Регистрация
26.05.2020
Сообщения
556
Благодарностей
196
Баллы
43
По соотношению скорость/качество для меня сейчас идеальная модель.
mistral-7b-instruct-v0.2.Q6_K.gguf
Локально? На каком железе? Думаю, что бы заюзать локально для текстовой генерации без видюхи? Но чтоб тянуло потоков 5-10. Оперативы 64 гига на серваке...
 
Регистрация
26.05.2020
Сообщения
556
Благодарностей
196
Баллы
43

Astraport

Client
Регистрация
01.05.2015
Сообщения
5 070
Благодарностей
4 584
Баллы
113

megainformatic

Новичок
Регистрация
10.02.2026
Сообщения
1
Благодарностей
0
Баллы
1
Интересуетесь ли вы комиксами и инди-играми?

 

izubr

Client
Регистрация
11.05.2011
Сообщения
643
Благодарностей
302
Баллы
63
Парни, подскажите что то конкретное для локала, в текущих реалиях, моделей огромное кол-во. Чтото многоязычное (европейские языки), что вытянет видяха 12Гб (3060) в 5 потоков (до 30 сек ответы к примеру) ?
 

dongo2001

Client
Регистрация
14.09.2013
Сообщения
40
Благодарностей
2
Баллы
8
Модет можно как то иниергировать ии агента без ограничекний чтоб помогал писать проект видил сайт и мог обходить что нужно. Тоесть не был связан ничем. Это было бы круто. Нужен такой платный и дорогой проект!
 

Divisor

Новичок
Регистрация
26.02.2024
Сообщения
15
Благодарностей
18
Баллы
3
Все модели которые тут обсуждаются — это модели для генерации текста. Они для этого и создавались. Но задачи у всех разные, и модели тоже:
Для генерации контента (тайтлы, описания, рерайт):
Mistral 7B / Mistral Small 24B — лучшее соотношение скорость/качество на слабом железе. Для европейских языков работает нормально.
Для кода
Локально — Qwen3 Coder 30B если есть видяха от 24GB, или Qwen 2.5 Coder 7B в Q8 для 12GB. DeepSeek Coder V2 Lite тоже вариант. Обычные чат-модели код пишут плохо — нужны именно coder-версии.
Для reasoning / сложных задач
DeepSeek R1 — да, он льёт воду в thinking-блоке, но это by design. Thinking можно обрезать, показывать только финальный ответ. 14B версия слабовата, 32B уже вменяемая, но нужно 24GB+ VRAM.
Для мультиязычности
@izubr — на 3060 12GB для европейских языков в 5 потоков: Gemma 3 12B в Q4_K_M или Mistral Small 24B в Q3_K_M (впритык, но влезает). Gemma хорошо обучена на европейских языках, Mistral тоже — у них французская школа, европа в приоритете.
Не гонитесь за размером модели. 7B модель которая помещается в VRAM целиком будет быстрее и часто качественнее, чем 30B модель которая частично *вылезает в оперативку. GPU offload убивает скорость.
@Андрейка2020 — 64GB RAM без видяхи: можно гонять через llama.cpp на CPU, но 5-10 потоков нереально. 1-2 потока на Mistral 7B Q6 — да, с ответом за 10-20 сек. Для большего нужна видяха, CPU inference слишком медленный для потоковой работы.
--
*(overflow/offload)
 
  • Спасибо
Реакции: volody00

Кто просматривает тему: (Всего: 2, Пользователи: 1, Гости: 1)