Hermes Agent 语音模式：用说话代替打字

打字并非使用 AI 的唯一方式

2026 年，AI 工具的主流交互方式仍是文字。你输入消息，阅读回复。这种方式在很多场景下都运作良好。但有时候，语音显然更胜一筹：

你正在走路，想一边思考一边把问题说出来
你正在做饭，想询问某种食材的替代方案
你正在开车，想听智能体把今天的早报朗读给你听
你正在 Discord 语音频道里，想让智能体参与对话

Hermes Agent 在三个平台上内置了语音模式：CLI、Telegram 和 Discord。这不是简单叠加的文字转语音包装层，而是完整的语音交互——你说话，智能体倾听、转录、处理，并以语音形式回复。

以下将介绍各语音功能的工作原理、配置要求，以及实际的使用场景。

语音模式概览

Hermes 支持三种不同的语音交互模式：

功能	适用平台	功能说明
交互式语音	CLI	按 Ctrl+B 开始录音。智能体转录内容，处理后显示回复。
自动语音回复	Telegram、Discord	智能体在文字回复的同时发送语音音频。发送语音备忘录，即可获得语音回复。
语音频道	Discord	机器人加入语音频道，实时监听用户发言并以语音作答。

每种模式适用于不同的使用场景，下面逐一详细说明。

CLI 语音模式：在终端中说话

这是最简单的语音功能。在 Hermes CLI 会话中，按 Ctrl+B 开始录音，说出你的消息，再次按 Ctrl+B（或等待静音检测）停止录音。Hermes 会将语音转录并作为普通消息处理，然后给出回复。

所需安装

pip install "hermes-agent[voice]"

此命令会安装 sounddevice 和 numpy，用于麦克风采集和音频处理。你还需要在设备上连接一个正常工作的麦克风。

CLI 语音模式的适用场景

解放双手进行头脑风暴：在办公室踱步时将想法说出来，Hermes 会跟上你的节奏。
辅助输入：如果打字困难或速度慢，语音输入能有效降低使用门槛。
长文口述：口头描述复杂任务，无需敲入大段指令。

CLI 语音模式偏向"开发者向"。它实用，但真正令人惊艳的体验发生在即时通讯平台上。

Telegram 语音：发送语音备忘录，获得语音回复

这是让非技术用户真正受益的语音模式。在 Telegram 中：

你发送一条语音备忘录（长按麦克风按钮，说话，松开）
Hermes 转录你的消息
Hermes 正常处理内容
Hermes 在文字回复的同时发回一条语音音频消息

你可以在 Telegram 上与智能体进行完全基于语音的对话，全程无需打字。

所需安装

pip install "hermes-agent[messaging]"

另外还需完成标准的 Telegram 机器人配置（从 BotFather 获取 bot token，并在 config.yaml 中进行配置）。

如需更高质量的语音输出，可配置 ElevenLabs 等高级 TTS 服务商：

pip install "hermes-agent[tts-premium]"

Telegram 语音体验实例

设想这样一个工作流：

你正步行上班途中，在 Telegram 中长按麦克风按钮说道："今天有什么日程安排？提醒我下午 3 点打电话给牙医。"
Hermes 查询你的上下文，设置提醒，并发回一条语音消息："今天上午有两个会议，10 点站会，11:30 产品评审。我已为你设置了下午 3 点的牙医提醒。"

整个交互完全基于语音，你全程无需打开键盘。

自动语音回复配置

默认情况下，启用语音模式后，Hermes 在 Telegram 上会同时发送文字和语音回复。你可以自定义此行为：

始终语音：每条回复都包含语音音频
以其人之道还其人之身：语音消息获得语音回复，文字消息获得文字回复
仅文字：保留语音输入，关闭语音输出

"以其人之道还其人之身"模式最为自然，它会自动匹配用户的沟通风格。

Discord 语音频道：实时对话

这是最先进的语音功能。Hermes 可以加入 Discord 语音频道，实时监听所有人的发言，并以语音回复。

这让智能体成为群组对话中的语音参与者，多位用户均可提问，智能体逐一作答。

所需安装

pip install "hermes-agent[messaging]"

Discord 语音功能需要 discord.py[voice]，该依赖已包含在 messaging 扩展中。你还需要在服务器中为 Discord 机器人配置语音权限。

Discord 语音的适用场景

团队头脑风暴：智能体参与语音讨论，实时提供建议并回答问题
学习小组：在实时讨论中让智能体解释概念
游戏与社群服务器：智能体可在社区频道中担任支持语音的助手
辅助输入：无法打字的用户可通过语音与智能体交互

TTS 语音选项

Hermes 支持多种文字转语音后端：

服务商	音质	费用	备注
系统 TTS	基础	免费	默认，兼容所有平台
NeuTTS（本地）	良好	免费	本地运行，需额外配置
ElevenLabs	优秀	付费	高级音质，最接近真人声音

个人使用时，系统 TTS 或 NeuTTS 已足够。若你希望智能体听起来更像真人——尤其是面向用户的场景或内容创作用途——ElevenLabs 物有所值。

配置 ElevenLabs 时，将你的 API 密钥添加到 ~/.hermes/.env：

ELEVENLABS_API_KEY=your_key_here

并安装高级 TTS 包：

pip install "hermes-agent[tts-premium]"

语音输入语言

Hermes 使用 Whisper 进行语音识别，支持 99 种语言。你可以用西班牙语、法语、德语、普通话或其他大多数语言说话，智能体会正确转录并作出相应回复。

转录质量取决于 Whisper 模型的配置。若要获得非英语语言的最佳效果，请确保使用性能足够强大的 Whisper 模型。

隐私注意事项

语音数据带来了文字所没有的隐私问题：

音频录音：请确认你的 TTS/STT 服务商是否会保留音频。Hermes 在使用本地模型时，音频处理在本地进行。
Telegram 上的语音消息：Telegram 会将语音消息存储在其服务器上。机器人下载语音消息进行转录，但原始文件仍保留在 Telegram 云端。
Discord 语音：Discord 语音数据在到达机器人之前，会经过 Discord 的基础设施。

如果隐私是首要考量，使用本地 Whisper 转录和本地 TTS（NeuTTS）可以让所有音频处理都在你自己的服务器上完成。

对非技术用户的吸引力

语音模式是让 Hermes 对从未使用过终端的人也触手可及的功能。如果你为家人、朋友或小企业主搭建了一个 Hermes 智能体，他们实际上会使用的界面就是 Telegram 语音。

换位思考：他们不需要学习 CLI，不需要理解模型配置，也不需要打字。他们只需在一个已经在用的应用（Telegram）里长按一个按钮，自然地说话，然后听到语音回复。正是这种体验，弥合了"强大 AI 智能体"与"我父母也能用的工具"之间的鸿沟。

配置语音模式

如果你自行运行 Hermes：

安装语音支持：pip install "hermes-agent[voice,messaging]"
在 config.yaml 中配置 TTS（或使用默认值）
启动网关：hermes gateway start --detach
向你的 Telegram 机器人发送一条语音备忘录

如果你使用的是 Hermify，一旦连接好你的 Telegram 机器人，语音模式即可开箱即用，无需额外安装或配置。

Hermes Agent 语音模式：用说话代替打字

打字并非使用 AI 的唯一方式

语音模式概览

CLI 语音模式：在终端中说话

所需安装

CLI 语音模式的适用场景

Telegram 语音：发送语音备忘录，获得语音回复

所需安装

Telegram 语音体验实例

自动语音回复配置

Discord 语音频道：实时对话

所需安装

Discord 语音的适用场景

TTS 语音选项

语音输入语言

隐私注意事项

对非技术用户的吸引力

配置语音模式

参考资料

运行你自己的 Hermes Agent