Hermes Agent 语音模式:用说话代替打字
全面介绍 Hermes Agent 的语音功能,包括 CLI 中的麦克风输入、在 Telegram 和 Discord 中发送语音回复,以及在 Discord 语音频道中进行实时语音对话。

打字并非使用 AI 的唯一方式
2026 年,AI 工具的主流交互方式仍是文字。你输入消息,阅读回复。这种方式在很多场景下都运作良好。但有时候,语音显然更胜一筹:
- 你正在走路,想一边思考一边把问题说出来
- 你正在做饭,想询问某种食材的替代方案
- 你正在开车,想听智能体把今天的早报朗读给你听
- 你正在 Discord 语音频道里,想让智能体参与对话
Hermes Agent 在三个平台上内置了语音模式:CLI、Telegram 和 Discord。这不是简单叠加的文字转语音包装层,而是完整的语音交互——你说话,智能体倾听、转录、处理,并以语音形式回复。
以下将介绍各语音功能的工作原理、配置要求,以及实际的使用场景。
语音模式概览
Hermes 支持三种不同的语音交互模式:
| 功能 | 适用平台 | 功能说明 |
|---|---|---|
| 交互式语音 | CLI | 按 Ctrl+B 开始录音。智能体转录内容,处理后显示回复。 |
| 自动语音回复 | Telegram、Discord | 智能体在文字回复的同时发送语音音频。发送语音备忘录,即可获得语音回复。 |
| 语音频道 | Discord | 机器人加入语音频道,实时监听用户发言并以语音作答。 |
每种模式适用于不同的使用场景,下面逐一详细说明。
CLI 语音模式:在终端中说话
这是最简单的语音功能。在 Hermes CLI 会话中,按 Ctrl+B 开始录音,说出你的消息,再次按 Ctrl+B(或等待静音检测)停止录音。Hermes 会将语音转录并作为普通消息处理,然后给出回复。
所需安装
pip install "hermes-agent[voice]"
此命令会安装 sounddevice 和 numpy,用于麦克风采集和音频处理。你还需要在设备上连接一个正常工作的麦克风。
CLI 语音模式的适用场景
- 解放双手进行头脑风暴:在办公室踱步时将想法说出来,Hermes 会跟上你的节奏。
- 辅助输入:如果打字困难或速度慢,语音输入能有效降低使用门槛。
- 长文口述:口头描述复杂任务,无需敲入大段指令。
CLI 语音模式偏向"开发者向"。它实用,但真正令人惊艳的体验发生在即时通讯平台上。
Telegram 语音:发送语音备忘录,获得语音回复
这是让非技术用户真正受益的语音模式。在 Telegram 中:
- 你发送一条语音备忘录(长按麦克风按钮,说话,松开)
- Hermes 转录你的消息
- Hermes 正常处理内容
- Hermes 在文字回复的同时发回一条语音音频消息
你可以在 Telegram 上与智能体进行完全基于语音的对话,全程无需打字。
所需安装
pip install "hermes-agent[messaging]"
另外还需完成标准的 Telegram 机器人配置(从 BotFather 获取 bot token,并在 config.yaml 中进行配置)。
如需更高质量的语音输出,可配置 ElevenLabs 等高级 TTS 服务商:
pip install "hermes-agent[tts-premium]"
Telegram 语音体验实例
设想这样一个工作流:
- 你正步行上班途中,在 Telegram 中长按麦克风按钮说道:"今天有什么日程安排?提醒我下午 3 点打电话给牙医。"
- Hermes 查询你的上下文,设置提醒,并发回一条语音消息:"今天上午有两个会议,10 点站会,11:30 产品评审。我已为你设置了下午 3 点的牙医提醒。"
整个交互完全基于语音,你全程无需打开键盘。
自动语音回复配置
默认情况下,启用语音模式后,Hermes 在 Telegram 上会同时发送文字和语音回复。你可以自定义此行为:
- 始终语音:每条回复都包含语音音频
- 以其人之道还其人之身:语音消息获得语音回复,文字消息获得文字回复
- 仅文字:保留语音输入,关闭语音输出
"以其人之道还其人之身"模式最为自然,它会自动匹配用户的沟通风格。
Discord 语音频道:实时对话
这是最先进的语音功能。Hermes 可以加入 Discord 语音频道,实时监听所有人的发言,并以语音回复。
这让智能体成为群组对话中的语音参与者,多位用户均可提问,智能体逐一作答。
所需安装
pip install "hermes-agent[messaging]"
Discord 语音功能需要 discord.py[voice],该依赖已包含在 messaging 扩展中。你还需要在服务器中为 Discord 机器人配置语音权限。
Discord 语音的适用场景
- 团队头脑风暴:智能体参与语音讨论,实时提供建议并回答问题
- 学习小组:在实时讨论中让智能体解释概念
- 游戏与社群服务器:智能体可在社区频道中担任支持语音的助手
- 辅助输入:无法打字的用户可通过语音与智能体交互
TTS 语音选项
Hermes 支持多种文字转语音后端:
| 服务商 | 音质 | 费用 | 备注 |
|---|---|---|---|
| 系统 TTS | 基础 | 免费 | 默认,兼容所有平台 |
| NeuTTS(本地) | 良好 | 免费 | 本地运行,需额外配置 |
| ElevenLabs | 优秀 | 付费 | 高级音质,最接近真人声音 |
个人使用时,系统 TTS 或 NeuTTS 已足够。若你希望智能体听起来更像真人——尤其是面向用户的场景或内容创作用途——ElevenLabs 物有所值。
配置 ElevenLabs 时,将你的 API 密钥添加到 ~/.hermes/.env:
ELEVENLABS_API_KEY=your_key_here
并安装高级 TTS 包:
pip install "hermes-agent[tts-premium]"
语音输入语言
Hermes 使用 Whisper 进行语音识别,支持 99 种语言。你可以用西班牙语、法语、德语、普通话或其他大多数语言说话,智能体会正确转录并作出相应回复。
转录质量取决于 Whisper 模型的配置。若要获得非英语语言的最佳效果,请确保使用性能足够强大的 Whisper 模型。
隐私注意事项
语音数据带来了文字所没有的隐私问题:
- 音频录音:请确认你的 TTS/STT 服务商是否会保留音频。Hermes 在使用本地模型时,音频处理在本地进行。
- Telegram 上的语音消息:Telegram 会将语音消息存储在其服务器上。机器人下载语音消息进行转录,但原始文件仍保留在 Telegram 云端。
- Discord 语音:Discord 语音数据在到达机器人之前,会经过 Discord 的基础设施。
如果隐私是首要考量,使用本地 Whisper 转录和本地 TTS(NeuTTS)可以让所有音频处理都在你自己的服务器上完成。
对非技术用户的吸引力
语音模式是让 Hermes 对从未使用过终端的人也触手可及的功能。如果你为家人、朋友或小企业主搭建了一个 Hermes 智能体,他们实际上会使用的界面就是 Telegram 语音。
换位思考:他们不需要学习 CLI,不需要理解模型配置,也不需要打字。他们只需在一个已经在用的应用(Telegram)里长按一个按钮,自然地说话,然后听到语音回复。正是这种体验,弥合了"强大 AI 智能体"与"我父母也能用的工具"之间的鸿沟。
配置语音模式
如果你自行运行 Hermes:
- 安装语音支持:
pip install "hermes-agent[voice,messaging]" - 在
config.yaml中配置 TTS(或使用默认值) - 启动网关:
hermes gateway start --detach - 向你的 Telegram 机器人发送一条语音备忘录
如果你使用的是 Hermify,一旦连接好你的 Telegram 机器人,语音模式即可开箱即用,无需额外安装或配置。