- Регистрация
- 25.08.2011
- Сообщения
- 980
- Благодарностей
- 1 165
- Баллы
- 93
И снова здравствуйте.
Выкладываю шаблон комбайна для массовой работы с изображениями.
Комбайн делает следующее:
1. Массовая генерация картинок по заданному списку промтов с сохранением в папку images.
2. Массовая обрезка водяного знака в правом нижнем углу, вертикальная или горизонтальная.
3. Создание базы данных с помощью нейросети для распознавания изображений.
4. Поиск, выбор и перемещение однотипных изображений в отдельную папку.
Чуть подробнее.
Комбайн состоит из 4-х модулей, каждый из которых можно запускать отдельно.
В первом модуле можно массово создавать изображения.
На прошлом конкурсе (если кто видел) я писал о сервисе llm7.io (AI-AGENT#5: Пользуемся топовыми нейросетями по API бесплатно.)
Сервис предлагает бесплатно топовые ИИ нейросети для генерации контента и изображений.
На момент публикации статьи генерация изображений была в бете и по API не работала. Но сейчас все в порядке.
При получении бесплатного токена вы можете сделать 5 запросов в минуту на генерацию.
Вы можете выбрать разрешение и модель для работы (подробнее в документации). Также вам надо создать текстовый файл с промтами - один промт в одной строке и добавить его в список Promts. Чтобы увеличить количество запросов - зарегистрируйте больше аккаунтов и получите токены. По IP ограничений пока нет. Так с 12-ю токенами можно отправлять один запрос в секунду и за 24 часа получить 80.000+ разных изображений.
Второй модуль нужен для обрезки водяного знака в правом нижнем углу каждой картинки. Есть возможность вертикальной или горизонтальной обрезки.
Выглядит так:
ГОРИЗОНТАЛЬНО
Было
Стало
ВЕРТИКАЛЬНО
Было
Стало
Если водяной знак вам не мешает, оставляйте как есть.
Третий модуль понадобился, потому что разобраться вручную с тысячами картинок и не сломать глаза и моСК довольно сложно.
Для распознавания я взял lmstudio + qwen3VL 8B для обработки/распознавания картинок (об этом я говорил в другой статье на последнем конкурсе - AI-AGENT#6. Практическое применение локальных нейросетей на Zennoposter (C#). ).
При запуске модуля нейросеть начинает распознавать изображения по очереди в папке images - и создаёт базу данных sqlite,
где будет ссылка на картинку, ее название, характеристики и описание изображения, другие уникальные характеристики.
При повторном запуске в базу дописывается только данные о новых изображения.
Само описание выглядит примерно так:
Например, вы пишете в запросе: "выбери все изображения с котами", создается папка по ключевым словам до 3-х букв типа cats_kittens, в созданной базе по описанию отбираются все картинки котов/кошек/котят и и перемещаются из папки images в созданную папку cats_kittens . Для отбора используется токен llm7.io
В принципе, комбайн можно подстроить под работу с документами, текстом, презентациями и т.д.
Надеюсь, этот комбайн кому-нибудь поможет и облегчит работу с картинками.
Успехов всем!
Выкладываю шаблон комбайна для массовой работы с изображениями.
Комбайн делает следующее:
1. Массовая генерация картинок по заданному списку промтов с сохранением в папку images.
2. Массовая обрезка водяного знака в правом нижнем углу, вертикальная или горизонтальная.
3. Создание базы данных с помощью нейросети для распознавания изображений.
4. Поиск, выбор и перемещение однотипных изображений в отдельную папку.
Чуть подробнее.
Комбайн состоит из 4-х модулей, каждый из которых можно запускать отдельно.
В первом модуле можно массово создавать изображения.
На прошлом конкурсе (если кто видел) я писал о сервисе llm7.io (AI-AGENT#5: Пользуемся топовыми нейросетями по API бесплатно.)
Сервис предлагает бесплатно топовые ИИ нейросети для генерации контента и изображений.
На момент публикации статьи генерация изображений была в бете и по API не работала. Но сейчас все в порядке.
При получении бесплатного токена вы можете сделать 5 запросов в минуту на генерацию.
Вы можете выбрать разрешение и модель для работы (подробнее в документации). Также вам надо создать текстовый файл с промтами - один промт в одной строке и добавить его в список Promts. Чтобы увеличить количество запросов - зарегистрируйте больше аккаунтов и получите токены. По IP ограничений пока нет. Так с 12-ю токенами можно отправлять один запрос в секунду и за 24 часа получить 80.000+ разных изображений.
Второй модуль нужен для обрезки водяного знака в правом нижнем углу каждой картинки. Есть возможность вертикальной или горизонтальной обрезки.
Выглядит так:
ГОРИЗОНТАЛЬНО
Было
Стало
ВЕРТИКАЛЬНО
Было
Стало
Если водяной знак вам не мешает, оставляйте как есть.
Третий модуль понадобился, потому что разобраться вручную с тысячами картинок и не сломать глаза и моСК довольно сложно.
Для распознавания я взял lmstudio + qwen3VL 8B для обработки/распознавания картинок (об этом я говорил в другой статье на последнем конкурсе - AI-AGENT#6. Практическое применение локальных нейросетей на Zennoposter (C#). ).
При запуске модуля нейросеть начинает распознавать изображения по очереди в папке images - и создаёт базу данных sqlite,
где будет ссылка на картинку, ее название, характеристики и описание изображения, другие уникальные характеристики.
При повторном запуске в базу дописывается только данные о новых изображения.
Само описание выглядит примерно так:
или так:На изображении крупным планом показана змея, вероятно, вьюнок или крупная неядовитая змея, обвивающаяся вокруг толстого ветвистого ствола в тропическом лесу. Змея находится в центре композиции, её тело изогнуто в несколько петель, голова поднята и смотрит вперёд. Её чешуя имеет сложный узор: основной цвет — тёмно-коричневый и охристо-жёлтый, с яркими жёлтыми пятнами и полосками, что придаёт ей камуфляжный вид. Вокруг змеи и на ветке — свежие, крупные, глянцевые зелёные листья, что подчёркивает тропическую обстановку.
Фон — размытая, густая зелень леса, состоящая из множества ветвей и листьев, что создаёт эффект глубины и погружает зрителя в дикую природу. Освещение мягкое, рассеянное, создаёт ощущение утреннего или пасмурного дня в лесу.
Композиция симметрична и уравновешена: змея занимает центральное положение, а ветка, на которой она сидит, проходит диагонально, добавляя динамики. Стиль изображения — реалистичный, с высокой детализацией, напоминающий фотографию природы. Цветовая палитра насыщенная: преобладают оттенки зелёного, коричневого и жёлтого. В правом нижнем углу виден водяной знак "LLM7.IO", что указывает на то, что это, возможно, цифровая генерация или редактирование, а не оригинальная фотография.
И, наконец, четвертый модуль помогает систематизировать изображения по какому либо-признаку/признакам.На изображении — молодая немецкая овчарка, который бежит прямо на зрителя по асфальтированной дорожке. Собака выглядит очень энергичной и счастливой: её морда открыта, язык высовывается, уши торчат вверх, а глаза сияют от радости. Её шерсть имеет классический для породы окрас — чёрный и рыжевато-коричневый, с белыми отметинами на груди и лапах.
**Основные объекты:**
- Немецкий овчарка — центральный объект, занимающий большую часть кадра.
- Асфальтированная дорожка, по которой бежит собака.
- Зелёные деревья и кустарники в фоне, слегка размытые.
- Вдалеке видна часть жилого дома с крышей и стенами.
**Цвета:**
- Основные цвета — чёрный, рыжий и белый (шерсть собаки), серый (асфальт), зелёный (растительность), коричневый (стены дома).
- Цвета насыщенные, но мягкие, что создаёт уютную и живую атмосферу.
**Композиция:**
- Собака расположена по центру кадра, что делает её главным фокусом.
- Использован эффект размытия фона (боке), что подчёркивает движение и сосредоточенность на собаке.
- Линия дорожки ведёт взгляд зрителя прямо к собаке, усиливая ощущение движения.
**Стиль:**
- Это фотография в стиле портрета с акцентом на движение.
- Стиль — живой, динамичный, с теплой и позитивной эмоциональной окраской.
- В правом нижнем углу виден водяной знак "LLM7 1.0", что указывает на то, что изображение, возможно, сгенерировано с помощью искусственного интеллекта.
Общее впечатление — фотография передаёт радость, энергию и беззаботность молодого животного в естественной среде.
Например, вы пишете в запросе: "выбери все изображения с котами", создается папка по ключевым словам до 3-х букв типа cats_kittens, в созданной базе по описанию отбираются все картинки котов/кошек/котят и и перемещаются из папки images в созданную папку cats_kittens . Для отбора используется токен llm7.io
В принципе, комбайн можно подстроить под работу с документами, текстом, презентациями и т.д.
Надеюсь, этот комбайн кому-нибудь поможет и облегчит работу с картинками.
Успехов всем!
Вложения
-
21,9 КБ Просмотры: 25

