Локальный ИИ, не покидающий периметр компании

heks · 14.11.2025

ниче не понял но красавчик))

todayer · 15.11.2025

kolina сказал(а):
процессор AMD Ryzen 7 (сопоставимый по производительности с Intel Core i7)

Я правильно понял, что вы использовали CUDA? Если так, то производительность процессора не играла особую роль. Верно?

code · 15.11.2025

todayer сказал(а):
Я правильно понял, что вы использовали CUDA? Если так, то производительность процессора не играла особую роль. Верно?

Да, вы правильно поняли. При использовании CUDA основная вычислительная нагрузка действительно ложится на GPU, а не на CPU, поэтому производительность процессора играет значительно меньшую роль.

zarufakis · 16.11.2025

kolina сказал(а):
2) Обучение: QLoRA на базе Gemma-2-9B-IT
Мы обучали адаптер (LoRA), затем сливали его в полные веса (fp16). Это даёт:

малые требования к GPU при обучении (QLoRA/4-бит),

возможность распространять только LoRA (если нужно),

единый итоговый чекпоинт после слияния.

Вот этот момент можно было бы и подробнее расписать. Понятно, что в интернете есть информация как дообучать модель, но хотелось бы получить в рамках статьи, или отдельным материалом.

DTRS2 · 16.11.2025

code сказал(а):
Да, вы правильно поняли. При использовании CUDA основная вычислительная нагрузка действительно ложится на GPU, а не на CPU, поэтому производительность процессора играет значительно меньшую роль.

Круто!

Но какое примерно среднее время ответа модели в секундах/миллисекундах на стандартный запрос на таком железе?

И какую видюху использовали?

code · 16.11.2025

DTRS2 сказал(а):
Круто!

Но какое примерно среднее время ответа модели в секундах/миллисекундах на стандартный запрос на таком железе?

И какую видюху использовали?

Советую уточнить у автора.

Из данных что я нашел:
На связке уровня Ryzen 7 / Core i7 с одной современной RTX (3060/3060 Ti/3070) типичная задержка до первого токена у 7–8B модели составляет примерно 200–900 мс, а полный ответ в 100–150 токенов появляется за 2–5 с в зависимости от модели и настроек квантования.

zarufakis · 17.11.2025

kolina сказал(а):
Статью я начал писать уже после того, как обучение прошло успешно, поэтому все шаги воспроизвести сейчас сложно. В данный момент готовлю материал для нового обучения на свежих данных (пока собираю данные для обучения). Планирую протестировать подход, при котором модель из сообщения длиной около 500 символов будет формировать сразу несколько грузов — каждый в отдельном элементе JSON. Номер телефона будет вынесен в отдельное поле, а также предусмотрена отдельная классификация: «спам», «груз», «маршрут».

Изначально я не собирался писать статью и не был уверен, что получу результат. Однако теперь намерен провести повторное обучение (пусть модель можно дообучать, но я хочу начать с нуля) и дополнить статью новыми наблюдениями.

Реально крутой и полезный кейс. С таким не стыдно было бы на конкурс заявляться.
Нейронки дрочат все кому не лень, но, что бы так, с чувством, с расстановкой - очень мало кто может.
Поэтому ждем с нетерпением на конкурсе.

Поиск

Локальный ИИ, не покидающий периметр компании

kolina

Client

kolina

Client

heks

Client

todayer

Client

code

Administrator

zarufakis

Client

DTRS2

Пользователь

code

Administrator

kolina

Client

Вложения

kolina

Client

zarufakis

Client

Кто просматривает тему: (Всего: 1, Пользователи: 0, Гости: 1)