Генерация изображений

Hermes Agent генерирует изображения по текстовым запросам через FAL.ai. Из коробки поддерживаются девять моделей, каждая со своим балансом скорости, качества и стоимости. Активная модель настраивается пользователем через hermes tools и сохраняется в config.yaml.

Поддерживаемые модели

Модель	Скорость	Особенности	Цена
`fal-ai/flux-2/klein/9b` (по умолчанию)	`<1s`	Быстрый, чёткий текст	$0.006/MP
`fal-ai/flux-2-pro`	~6s	Студийный фотореализм	$0.03/MP
`fal-ai/z-image/turbo`	~2s	Двуязычный EN/CN, 6B параметров	$0.005/MP
`fal-ai/nano-banana-pro`	~8s	Gemini 3 Pro, глубина рассуждений, рендеринг текста	$0.15/изображение (1K)
`fal-ai/gpt-image-1.5`	~15s	Точность следования запросу	$0.034/изображение
`fal-ai/gpt-image-2`	~20s	SOTA рендеринг текста + CJK, осознанный фотореализм	$0.04–0.06/изображение
`fal-ai/ideogram/v3`	~5s	Лучшая типографика	$0.03–0.09/изображение
`fal-ai/recraft/v4/pro/text-to-image`	~8s	Дизайн, бренд-системы, готовые к продакшену	$0.25/изображение
`fal-ai/qwen-image`	~12s	На базе LLM, сложный текст	$0.02/MP

Цены указаны по тарифам FAL на момент написания; актуальные цифры смотрите на fal.ai.

Ввод агента	image_size (flux/z-image/qwen/recraft/ideogram)	aspect_ratio (nano-banana-pro)	image_size (gpt-image-1.5)	image_size (gpt-image-2)
`landscape`	`landscape_16_9`	`16:9`	`1536x1024`	`landscape_4_3` (1024×768)
`square`	`square_hd`	`1:1`	`1024x1024`	`square_hd` (1024×1024)
`portrait`	`portrait_16_9`	`9:16`	`1024x1536`	`portrait_4_3` (768×1024)

Модель	Масштабирование?	Причина
`fal-ai/flux-2-pro`	✓	Обратная совместимость (был значением по умолчанию до выбора моделей)
Все остальные	✗	Быстрые модели потеряли бы своё основное преимущество; высокодетализированные модели не нуждаются в этом

Параметр	Значение
Коэффициент масштабирования	2×
Креативность	0.35
Сходство	0.6
Guidance scale	4
Шаги инференса	18

Платформа	Способ доставки
CLI	URL изображения выводится в формате markdown `![](url)` — нажмите для открытия
Telegram	Фото-сообщение с prompt в качестве подписи
Discord	Встраивается в сообщение
Slack	URL разворачивается Slack'ом
WhatsApp	Медиа-сообщение
Другие	URL в виде обычного текста

Генерация изображений

Поддерживаемые модели

Настройка

Получение API-ключа FAL

Настройка и выбор модели

Качество GPT-Image

Использование

Соотношения сторон

Автоматическое масштабирование (Upscaling)

Как это работает внутри

Отладка

Доставка на платформы

Ограничения