Vision и вставка изображений

Hermes Agent поддерживает мультимодальное распознавание (Vision) — вы можете вставлять изображения из буфера обмена прямо в CLI и просить агента анализировать, описывать или работать с ними. Изображения отправляются модели в виде блоков контента, закодированных в base64, поэтому любая модель с поддержкой Vision может их обработать.

Как это работает

Скопируйте изображение в буфер обмена (скриншот, изображение из браузера и т.д.)
Прикрепите его одним из способов, описанных ниже
Введите ваш вопрос и нажмите Enter
Изображение отобразится в виде значка [📎 Image #1] над строкой ввода
После отправки изображение передаётся модели как блок контента Vision

Вы можете прикрепить несколько изображений перед отправкой — каждое получит свой значок. Нажмите Ctrl+C, чтобы очистить все прикреплённые изображения.

Изображения сохраняются в ~/.hermes/images/ в виде PNG-файлов с именами, содержащими временную метку.

Методы вставки

Способ прикрепления изображения зависит от вашего терминального окружения. Не все методы работают везде — ниже приведена полная информация:

Команда `/paste`

Самый надёжный явный способ прикрепления изображения.

/paste

Введите /paste и нажмите Enter. Hermes проверяет буфер обмена на наличие изображения и прикрепляет его. Это самый безопасный вариант, когда ваш терминал перехватывает Cmd+V/Ctrl+V или когда вы скопировали только изображение и нет текстовой полезной нагрузки для анализа.

Ctrl+V / Cmd+V

Hermes теперь обрабатывает вставку как многоуровневый процесс:

сначала обычная вставка текста
затем резервный механизм — родной буфер обмена / OSC52 текст, если терминал не передал текст корректно
прикрепление изображения, когда буфер обмена или вставленные данные содержат изображение или путь к изображению

Это означает, что вставленные временные пути скриншотов macOS и URI изображений вида file://... могут прикрепляться сразу, а не оставаться в редакторе как обычный текст.

Если в вашем буфере обмена **только изображение** (без текста), терминалы всё равно не могут напрямую отправлять бинарные данные изображения. Используйте `/paste` как явный способ прикрепления изображения.

`/terminal-setup` для VS Code / Cursor / Windsurf

Если вы запускаете TUI в локальном интегрированном терминале VS Code-семейства на macOS, Hermes может установить рекомендуемые привязки workbench.action.terminal.sendSequence для улучшенной поддержки многострочного ввода и undo/redo:

/terminal-setup

Это особенно полезно, когда Cmd+Enter, Cmd+Z или Shift+Cmd+Z перехватываются IDE. Запускайте эту команду только на локальной машине — не внутри SSH-сессии.

Совместимость с платформами

Окружение	`/paste`	Cmd/Ctrl+V	`/terminal-setup`	Примечания
macOS Terminal / iTerm2	✅	✅	n/a	Лучший опыт — родной буфер обмена + восстановление пути к скриншоту
Apple Terminal	✅	✅	n/a	Если Cmd+←/→/⌫ перехватываются, используйте Ctrl+A / Ctrl+E / Ctrl+U как запасной вариант
Linux X11 desktop	✅	✅	n/a	Требуется `xclip` (`apt install xclip`)
Linux Wayland desktop	✅	✅	n/a	Требуется `wl-paste` (`apt install wl-clipboard`)
WSL2 (Windows Terminal)	✅	✅	n/a	Использует `powershell.exe` — дополнительная установка не требуется
VS Code / Cursor / Windsurf (локальный)	✅	✅	✅	Рекомендуется для лучшей поддержки Cmd+Enter / undo / redo
VS Code / Cursor / Windsurf (SSH)	❌²	❌²	❌³	Запустите `/terminal-setup` на локальной машине
SSH терминал (любой)	❌²	❌²	n/a	Удалённый буфер обмена недоступен

² См. SSH и удалённые сессии ниже ³ Команда записывает локальные привязки клавиш IDE и не должна запускаться на удалённом хосте

Настройка для конкретных платформ

macOS

Никакой дополнительной настройки не требуется. Hermes использует osascript (встроенный в macOS) для чтения буфера обмена. Для более быстрой работы можно установить pngpaste:

brew install pngpaste

Linux (X11)

Установите xclip:

# Ubuntu/Debian
sudo apt install xclip

# Fedora
sudo dnf install xclip

# Arch
sudo pacman -S xclip

Linux (Wayland)

Современные Linux-десктопы (Ubuntu 22.04+, Fedora 34+) часто используют Wayland по умолчанию. Установите wl-clipboard:

# Ubuntu/Debian
sudo apt install wl-clipboard

# Fedora
sudo dnf install wl-clipboard

# Arch
sudo pacman -S wl-clipboard

Ваша модель	Что происходит с изображением
С поддержкой Vision (GPT-4V, Claude с Vision, Gemini, Qwen-VL, MiMo-VL и др.)	Отправляется как реальные пиксели с использованием родного формата контента провайдера, указанного выше. Без текстовой сводки.
Только текст (DeepSeek V3, маленькие open-source модели, старые endpoints только для чатов)	Маршрутизируется через вспомогательный инструмент `vision_analyze` — вспомогательная модель Vision описывает изображение, и текстовое описание вставляется в диалог.

Vision и вставка изображений

Как это работает

Методы вставки

Команда `/paste`

Ctrl+V / Cmd+V

`/terminal-setup` для VS Code / Cursor / Windsurf

Совместимость с платформами

Настройка для конкретных платформ

macOS

Linux (X11)

Linux (Wayland)

WSL2

Проверка доступа к буферу обмена WSL2

SSH и удалённые сессии

Обходные пути для SSH

Почему терминалы не могут вставлять изображения

Поддерживаемые модели

Маршрутизация изображений (модели с Vision vs только текст)

Vision и вставка изображений

Как это работает

Методы вставки

Команда /paste

Ctrl+V / Cmd+V

/terminal-setup для VS Code / Cursor / Windsurf

Совместимость с платформами

Настройка для конкретных платформ

macOS

Linux (X11)

Linux (Wayland)

WSL2

Проверка доступа к буферу обмена WSL2

SSH и удалённые сессии

Обходные пути для SSH

Почему терминалы не могут вставлять изображения

Поддерживаемые модели

Маршрутизация изображений (модели с Vision vs только текст)

Команда `/paste`

`/terminal-setup` для VS Code / Cursor / Windsurf