Настраиваем локальный GPT сервис на своем ПК. Экономим сотни $$$

Moonwalker · 24.09.2024

Вопрос такой: что будет лучше, поставить одну карту на 16 Гб (допустим, 4060), или же две по 12 Гб (те же 3060)? Как с точки зрения качества, так и с точки зрения скорости? Условно, в две по 12 влезет две модели попроще, но зато будут работать одновременно, т.е., качество будет похуже, но зато быстрее (в многотопоке). А в 16 гб влезет модель посерьезнее, но будет работать чуть медленннее.
ps. Ti прирост дает вообще? Или решает только объем памяти и нет смысла переплачивать?

KolkaPetkinSyn · 25.09.2024

В чём отличие Kobold от LM Studio?
Есть отличия в производительности или удобстве?
Пробовал сравнивать capybarahermes-2.5-mistral-7b.Q8_0.gguf с лама 3.1?

taratova · 25.09.2024

круто)

KolkaPetkinSyn · 25.09.2024

zarufakis сказал(а):
Тот же апи у меня работает сутками без сбоев.

Перезагружаю сервер 1 раз в неделю, lm studio не разу не подводила

zarufakis сказал(а):
Постоянно сравниваю модели. Сейчас на Mistral-7B-Instruct-v0.3-Q8_0.gguf, она генерирует более ожидаемые ответветы, а лама такую пургу выдает, нунахер.

Сейчас потестировал Ламу, Мистраль и ещё пару популярных моделей.
Мистраль выдаёт более развернутые и креативные(иногда через чур) ответы со смайликами.
Лама более лаконична и сурова.
другие вообще не зашли.
Запросы на русском понимают все, но лучше не стоит.
Ответы иногда поражают)

однозначно стоит делать наиболее подробные промты и не давать железяки фантазировать

radv · 25.09.2024

zarufakis сказал(а):
Все настройки ниже применимы к моей видеокарте - NVIDIA GeForce RTX 3060 12GB.

Спасибо. у меня как раз такая же :az:

garikn · 25.09.2024

KolkaPetkinSyn сказал(а):
Ответы иногда поражают)

Яичница с луком - это из цитадели по моему. Но крыльями машет, это уже ИИ в сторону ГМО потянуло.

execut0r · 25.09.2024

Ollama - быстро и продуктивно. Все ставится из коробки.
На Винду вообще в два клика - установил и делаешь запрос на localhost, как на стандартный API. Кушает почти все, работает очень шустро.

В соседней теме Serj566 на примере показал

KolkaPetkinSyn · 26.09.2024

execut0r сказал(а):
Ollama - быстро и продуктивно. Все ставится из коробки.
На Винду вообще в два клика - установил и делаешь запрос на localhost, как на стандартный API. Кушает почти все, работает очень шустро.

В соседней теме Serj566 на примере показал

Вообще не топлю ни за какую оболочку, первую увидел LM Studio ей и пользуюсь. Установка в пару кликов, работает 24/7 без проблем. В последних версиях можно сразу загружать несколько модели.
Установку Ollama Видел на видео показалось немножко заморочено. Там была установка с помощью Докера.
Вот теперь интересно, влияет ли оболочка на скорость генерации контента? Кто-нибудь проводил такие тесты?

execut0r · 26.09.2024

Я замеров не делал, но как перешел на Ollam'у горя перестал знать) Она в трее с загрузкой сидит, систему не напрягает, не отваливается. Модели на ней летают, по моему субъективному ощущению.

execut0r · 26.09.2024

zarufakis сказал(а):
Чисто теоретически на скорость генерации влияет железо и модель. Если влияние оболочки есть, то не такое большое, хотя все таки нужно тестить.
Я Ollama поставил, но из-за отсутствия внятного мануала так и не понял, куда что прописывать и забил.
Теперь настала очередь за LM Studio

Куда проще?
Установил Ollam'у на Windows через exe'шник.
Запустил cmd и ввел команду - ollama run llama3.2 или любую другую нужную и поддерживаемую модель
Она ее скачивает и сохраняет на диске.
Далее в ZennoPoster делаем POST запрос с нужной нам моделью и все.
Не буду повторяться - в теме @Serj566 в картинках расписал.

Moonwalker · 26.09.2024

Отлично, что много разных вариантов на конкурсе представлено. Каждый выберет то, что ему больше подойдет, или что больше устроит. У самого завтра 4060 приедет, как раз займусь экспериментами со всеми, настало время ))

Demiz · 27.09.2024

Спасибо за статью, проголосую! Жаль у меня красная карточка, надо будет проверить форк и для моей, до этого не нашел достойных решений для радеонов. Поэтому буду на зелень переходить, по мне так локальный ГПТ куда надежнее

Stilius · 29.09.2024

Подскажите что за ошибка при запуске kobold

rodgers · 01.10.2024

Подскажите на NVIDIA GeForce RTX 3060 12GB LHR должно работать так же как и на обычной или LHR не даст такой скорости?

Moonwalker · 01.10.2024

zarufakis сказал(а):
что значит LHR?

Кажись, на них нельзя майнить (без танцев с бубном).

heks · 01.10.2024

Как убрать ограничение в 400 токенов?

heks · 01.10.2024

Может кто подскажет смотрю генерит процом а не картой
https://prnt.sc/dd8X7KAhqAev
ноут предатор хелиос 16-72 видяха 4060 на 16 гб скачал модуль Mistral-7B-Instruct-v0.3.fp16 на 14 гб
тот что в статье модуль что то не нашел в поиске

heks · 01.10.2024

А я думал я криворукий)))
Маякну если получится еще покопаюсь

heks · 01.10.2024

https://prnt.sc/VVip3ayLWLaI запустил пробуй openhermes-2.5-mistral-7b.Q4_K_M.gguf
graph splits = 1 ставил не так как ты написал
хотя в логах так пишется llama_new_context_with_model: graph splits = 2
еще отрубил https://prnt.sc/E9TxXy5Y3JMm

CtxLimit:441/4096, Amt:400/400, Init:0.00s, Process:0.01s (9.0ms/T = 111.11T/s), Generate:10.59s (26.5ms/T = 37.76T/s), Total:10.60s (37.73T/s) вроде скорость норма

Настраиваем локальный GPT сервис на своем ПК. Экономим сотни $$$

Client

Вложения

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)