返回博客
HermesVoiceTelegramDiscordTTSAI Agents

Hermes Agent 语音模式:用说话代替打字

全面介绍 Hermes Agent 的语音功能,包括 CLI 中的麦克风输入、在 Telegram 和 Discord 中发送语音回复,以及在 Discord 语音频道中进行实时语音对话。

作者:Hermify Team||阅读约 2 分钟
一个麦克风,周围散发着绿色声波,旁边环绕着聊天气泡图标,代表在 Telegram、Discord 和 CLI 中的语音交互

打字并非使用 AI 的唯一方式

2026 年,AI 工具的主流交互方式仍是文字。你输入消息,阅读回复。这种方式在很多场景下都运作良好。但有时候,语音显然更胜一筹:

  • 你正在走路,想一边思考一边把问题说出来
  • 你正在做饭,想询问某种食材的替代方案
  • 你正在开车,想听智能体把今天的早报朗读给你听
  • 你正在 Discord 语音频道里,想让智能体参与对话

Hermes Agent 在三个平台上内置了语音模式:CLI、Telegram 和 Discord。这不是简单叠加的文字转语音包装层,而是完整的语音交互——你说话,智能体倾听、转录、处理,并以语音形式回复。

以下将介绍各语音功能的工作原理、配置要求,以及实际的使用场景。

语音模式概览

Hermes 支持三种不同的语音交互模式:

功能 适用平台 功能说明
交互式语音 CLI 按 Ctrl+B 开始录音。智能体转录内容,处理后显示回复。
自动语音回复 Telegram、Discord 智能体在文字回复的同时发送语音音频。发送语音备忘录,即可获得语音回复。
语音频道 Discord 机器人加入语音频道,实时监听用户发言并以语音作答。

每种模式适用于不同的使用场景,下面逐一详细说明。

CLI 语音模式:在终端中说话

这是最简单的语音功能。在 Hermes CLI 会话中,按 Ctrl+B 开始录音,说出你的消息,再次按 Ctrl+B(或等待静音检测)停止录音。Hermes 会将语音转录并作为普通消息处理,然后给出回复。

所需安装

pip install "hermes-agent[voice]"

此命令会安装 sounddevicenumpy,用于麦克风采集和音频处理。你还需要在设备上连接一个正常工作的麦克风。

CLI 语音模式的适用场景

  • 解放双手进行头脑风暴:在办公室踱步时将想法说出来,Hermes 会跟上你的节奏。
  • 辅助输入:如果打字困难或速度慢,语音输入能有效降低使用门槛。
  • 长文口述:口头描述复杂任务,无需敲入大段指令。

CLI 语音模式偏向"开发者向"。它实用,但真正令人惊艳的体验发生在即时通讯平台上。

Telegram 语音:发送语音备忘录,获得语音回复

这是让非技术用户真正受益的语音模式。在 Telegram 中:

  1. 你发送一条语音备忘录(长按麦克风按钮,说话,松开)
  2. Hermes 转录你的消息
  3. Hermes 正常处理内容
  4. Hermes 在文字回复的同时发回一条语音音频消息

你可以在 Telegram 上与智能体进行完全基于语音的对话,全程无需打字。

所需安装

pip install "hermes-agent[messaging]"

另外还需完成标准的 Telegram 机器人配置(从 BotFather 获取 bot token,并在 config.yaml 中进行配置)。

如需更高质量的语音输出,可配置 ElevenLabs 等高级 TTS 服务商:

pip install "hermes-agent[tts-premium]"

Telegram 语音体验实例

设想这样一个工作流:

  1. 你正步行上班途中,在 Telegram 中长按麦克风按钮说道:"今天有什么日程安排?提醒我下午 3 点打电话给牙医。"
  2. Hermes 查询你的上下文,设置提醒,并发回一条语音消息:"今天上午有两个会议,10 点站会,11:30 产品评审。我已为你设置了下午 3 点的牙医提醒。"

整个交互完全基于语音,你全程无需打开键盘。

自动语音回复配置

默认情况下,启用语音模式后,Hermes 在 Telegram 上会同时发送文字和语音回复。你可以自定义此行为:

  • 始终语音:每条回复都包含语音音频
  • 以其人之道还其人之身:语音消息获得语音回复,文字消息获得文字回复
  • 仅文字:保留语音输入,关闭语音输出

"以其人之道还其人之身"模式最为自然,它会自动匹配用户的沟通风格。

Discord 语音频道:实时对话

这是最先进的语音功能。Hermes 可以加入 Discord 语音频道,实时监听所有人的发言,并以语音回复。

这让智能体成为群组对话中的语音参与者,多位用户均可提问,智能体逐一作答。

所需安装

pip install "hermes-agent[messaging]"

Discord 语音功能需要 discord.py[voice],该依赖已包含在 messaging 扩展中。你还需要在服务器中为 Discord 机器人配置语音权限。

Discord 语音的适用场景

  • 团队头脑风暴:智能体参与语音讨论,实时提供建议并回答问题
  • 学习小组:在实时讨论中让智能体解释概念
  • 游戏与社群服务器:智能体可在社区频道中担任支持语音的助手
  • 辅助输入:无法打字的用户可通过语音与智能体交互

TTS 语音选项

Hermes 支持多种文字转语音后端:

服务商 音质 费用 备注
系统 TTS 基础 免费 默认,兼容所有平台
NeuTTS(本地) 良好 免费 本地运行,需额外配置
ElevenLabs 优秀 付费 高级音质,最接近真人声音

个人使用时,系统 TTS 或 NeuTTS 已足够。若你希望智能体听起来更像真人——尤其是面向用户的场景或内容创作用途——ElevenLabs 物有所值。

配置 ElevenLabs 时,将你的 API 密钥添加到 ~/.hermes/.env

ELEVENLABS_API_KEY=your_key_here

并安装高级 TTS 包:

pip install "hermes-agent[tts-premium]"

语音输入语言

Hermes 使用 Whisper 进行语音识别,支持 99 种语言。你可以用西班牙语、法语、德语、普通话或其他大多数语言说话,智能体会正确转录并作出相应回复。

转录质量取决于 Whisper 模型的配置。若要获得非英语语言的最佳效果,请确保使用性能足够强大的 Whisper 模型。

隐私注意事项

语音数据带来了文字所没有的隐私问题:

  • 音频录音:请确认你的 TTS/STT 服务商是否会保留音频。Hermes 在使用本地模型时,音频处理在本地进行。
  • Telegram 上的语音消息:Telegram 会将语音消息存储在其服务器上。机器人下载语音消息进行转录,但原始文件仍保留在 Telegram 云端。
  • Discord 语音:Discord 语音数据在到达机器人之前,会经过 Discord 的基础设施。

如果隐私是首要考量,使用本地 Whisper 转录和本地 TTS(NeuTTS)可以让所有音频处理都在你自己的服务器上完成。

对非技术用户的吸引力

语音模式是让 Hermes 对从未使用过终端的人也触手可及的功能。如果你为家人、朋友或小企业主搭建了一个 Hermes 智能体,他们实际上会使用的界面就是 Telegram 语音。

换位思考:他们不需要学习 CLI,不需要理解模型配置,也不需要打字。他们只需在一个已经在用的应用(Telegram)里长按一个按钮,自然地说话,然后听到语音回复。正是这种体验,弥合了"强大 AI 智能体"与"我父母也能用的工具"之间的鸿沟。

配置语音模式

如果你自行运行 Hermes:

  1. 安装语音支持:pip install "hermes-agent[voice,messaging]"
  2. config.yaml 中配置 TTS(或使用默认值)
  3. 启动网关:hermes gateway start --detach
  4. 向你的 Telegram 机器人发送一条语音备忘录

如果你使用的是 Hermify,一旦连接好你的 Telegram 机器人,语音模式即可开箱即用,无需额外安装或配置。

参考资料

运行你自己的 Hermes Agent

自带 API 密钥,连接 Telegram,60 秒内即可上线一个自我改进的 AI 智能体。

立即开始