Настраиваем локальный GPT сервис на своем ПК. Экономим сотни $$$

gospodinkot · 02.10.2024

heks сказал(а):
Может кто подскажет смотрю генерит процом а не картой
/QUOTE]
GTX 1050 Ti вообще не задействуется. вся нагрузка на проц. Графическое ядро процессора отключил в диспетчере.

Patcher · 02.10.2024

На ноуте и правда странное поведение, в первую очередь грузит процессор и только потом видеокарту. Исключить камень из работы ни какими настройками не получается. На стационарном железе такой проблемы нет камень и карта +- одинаковые

samsonnn · 04.10.2024

как отправить в Post запросе изображение + текст? нашел какой то api, все ровно не пойму - тык

Asmus003 · 04.11.2024

zarufakis сказал(а):
Я тоже по началу подумывал генерировать картинки коболдом, но поняв, сколько это займет ресурсов отказался от этой идеи. А покопавшись в инете нашел бесплатный апи, который можно дрочить в хвост и в гриву. Пользуйся, картинки фото качества. https://zenno.club/discussion/threads/flux-1-besplatno-generiruem-kartinki-po-svoemu-promptu.122632/

подскажи, если взять видюху на 16гб, можно ли будет одновременно запускать слабую и сильную модель (при условии что хватает ресурсов видеокарты). например, для одной задачи нужны простые генерации 1 общей фразы, которую можно сделать легкой моделью. а для другой задачи - нужно написать текст, либо осмысленно отвечать на сообщения (насколько это вообще реально в этом ИИ? :-)

), то там нужна помощнее модель. вот можно так разделять, или придется делать большущую модель для всего?
было бы круто собрать отдельный мощный ПК (видяха всего-то 1.5к баксов) и генерить фото+текст локально. если в небольших объемах то можно потянуть.

Asmus003 · 04.11.2024

zarufakis сказал(а):
В LM Studio можно загружать несколько моделей, главное, что бы они суммарно поместились в памяти карты и по апи обращаться к той, либо иной.

спасибо.
FLUX - тоже интересно, но насколько там картинки соответствуют заданию? я нейронками не пользуюсь, и не знаю как оценить. лучше ли она, чем ставить локально (ее или другую) для генерации картинок?

Asmus003 · 04.11.2024

zarufakis сказал(а):
Для генерации картинок локально нужна карта не ниже 500к рублей, иначе не имеет смысла с этим связываться, лучше использовать метод, который я дал в соседней статье.

ну в теме про флюкс человек написал, что у него стоит локально и 1 картинка генерится минуту, он пока не отписал какая видяха. видяха за 1.5к баксов на 16 гиг думаю справится с этим, если время устраивает. метод по апи - классный, но его всегда могут прикрыть/сделать платным.

samsonnn · 04.11.2024

Asmus003 сказал(а):
видяха за 1.5к баксов на 16 гиг

Хмм... аж интересно стало, что же это за видяха такая на 16гб и за такую цену? К примеру стоимость новой RTX 4070 ti Super около +- 1000$
Наверное RTX 4080 или 4090?

Asmus003 · 05.11.2024

samsonnn сказал(а):
Хмм... аж интересно стало, что же это за видяха такая на 16гб и за такую цену? К примеру стоимость новой RTX 4070 ti Super около +- 1000$
Наверное RTX 4080 или 4090?

может в Украине цены другие. вот описание:

Видеокарта NVIDIA PCI-Ex GeForce RTX 4080 Founders Edition 16GB GDDR6X (256bit) (2510/21000) (1 x HDMI, 3 x DisplayPort) (900-1G136-2560-000)

стоит 54к грн = 1320 баксов

Видеокарта MSI PCI-Ex GeForce RTX 4070 Ti Super 16G Gaming X Slim 16GB GDDR6X (256bit) (2685/21000) (HDMI, 3 x DisplayPort) (RTX 4070 Ti SUPER 16G GAMING X SLIM)
стоит 1к баксов.

какая из них лучше для нейронок?

samsonnn · 05.11.2024

нейронкам нужна память, а тут память одинаковая а цена разная, RTX 4070 Ti SUPER дешевле, зачем переплачивать.
И да у самого RTX 4070 Ti SUPER вот лично для моих хотелок по нейронкам хватает с головой.

KolkaPetkinSyn · 05.11.2024

zarufakis сказал(а):
Для генерации картинок локально нужна карта не ниже 500к рублей, иначе не имеет смысла с этим связываться, лучше использовать метод, который я дал в соседней статье.

Метод безусловно классный, я не много картинок твоим шаблоном наделал, но сейчас шаблон не фурычит( Прикрыли лавочку. Разве что на веб переделать

KolkaPetkinSyn · 05.11.2024

zarufakis сказал(а):
Смотри внимательно апи, метод для внимательных

Посмотреть вложение 127173

Хочешь поржать? Я раз 5, если не 10, сравнивал адрес конечной точки из документации с тем что в шаблоне и у меня они были одинаковые. Точно, метод для внимательных!

KolkaPetkinSyn · 06.11.2024

zarufakis сказал(а):
При чем здесь поржать?
У меня почему-то создает задания, и генерит картинки.

Посмотреть вложение 127180

Ты меня не понял. Я имел в виду, что я кучу раз смотрел API и проверял адрес конечной точки и мне казалось что всё совпадает. А на самом деле адрес слегка изменился. Вот с этого и стоит поржать! Как ты сам и написал, метод для внимательных!

Asmus003 · 06.11.2024

samsonnn сказал(а):
нейронкам нужна память, а тут память одинаковая а цена разная, RTX 4070 Ti SUPER дешевле, зачем переплачивать.
И да у самого RTX 4070 Ti SUPER вот лично для моих хотелок по нейронкам хватает с головой.

Видеокарта MSI PCI-Ex GeForce RTX 4070 Ti Super 16G Gaming X Slim 16GB GDDR6X (256bit) (2685/21000) (HDMI, 3 x DisplayPort) (RTX 4070 Ti SUPER 16G GAMING X SLIM)
нужен ли для нейронок выделенный параметр и на что он вообще влияет? на 3060 он вообще 1500/15000.
на RTX 4070 Ti SUPER генеришь картинки или только текст? я думаю что лучше ее брать просто потому что туда может влезть лучшая модель и будет лучший результат, чем в 12 гиговой. даже если скорость работы будет одинаковая.

dima2121 · 30.11.2024

Добрый день, а тексты можно переводить этой моделью ?

kagorec · 30.11.2024

dima2121 сказал(а):
Добрый день, а тексты можно переводить этой моделью ?

Как вариант deepseek или mistral получше будут

KokaSEO · 10.12.2024

Автор спасибо за статью, в очередной раз дал полезную фичу.

Не подскажете, как radeon 570 16gb раскочегарить для этой нейронки?
Ставил форк koboldcpp_rocm, вроде он для AMD GPU.
Видеопамять занята, но вычисления идут на CPU вместо GPU.

promusik · 19.12.2024

Как заставить kobolt выдавать результат более 512 токенов по api? Вроде в json прописываю и max_tokens, а он игнорирует и все

promusik · 19.12.2024

Question: Is there any way to increase the max number of tokens generated from 512? · Issue #24 · LostRuins/koboldcpp · GitHub

Maybe this is a dumb question, but why is the limit 512? The model I'm using has a limit that's much higher (vicuna), if not unlimited. If this something hard-coded in the program or could it be mo...

github.com

Это ответ на мой вопрос. Вкраце: разрабы специально зашили ограничение. Больше 1024 не сделать вроде даже через вебку. Но мнехотя бы api до 1024 увеличить, но этого все равно мало.

vinaz · 04.02.2025

у меня для тестов поиграться , 5950х и двумя картами 3090, жду когда 5090 появятся запускаю модели DeepSeek-R1-Distill-Qwen-32B и 70b

Настраиваем локальный GPT сервис на своем ПК. Экономим сотни $$$

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Client

Вложения

Кто просматривает тему: (Всего: 0, Пользователи: 0, Гости: 0)