返回博客
TelegramVoiceProductivityAI Agents

解放双手的 AI:Hermes 语音 + Telegram 工作流

在 Telegram 上使用 Hermes Agent 语音模式,实现随时随地的免手持式高效办公。涵盖晨间简报、任务捕捉、快速查询等真实工作流场景。

作者:Hermify Team||阅读约 2 分钟
一部智能手机上显示着与 AI 智能体的 Telegram 对话,语音气泡清晰可见,旁边放着一杯晨间咖啡

总是需要打字,太麻烦了

大多数 AI 助手都默认你坐在桌前、双手空闲。但现实生活往往并非如此。

开车去开会时,你需要添加一个任务;做饭时,你想查一下食材能否替换;在两场约会之间步行时,你想口述一封跟进邮件的草稿。在所有这些场景中,"打开应用→输入问题→阅读回复"的标准流程都行不通。

Hermes Agent 在 Telegram 上的语音模式解决了这个问题。你发送一段语音——就像发给朋友一样——智能体会自动转录、处理,并回复一段语音。整个交互过程完全免手持。

下面介绍如何围绕这一能力搭建真正实用的生产力工作流。

语音处理流程详解

当你向 Hermes Telegram 机器人发送语音消息时:

  1. Telegram 将音频文件投递给机器人
  2. Hermes 下载音频,并通过 Whisper(本地)或云端语音转文字服务商完成转录
  3. 转录后的文字作为普通消息处理,智能体可完整调用记忆、技能与工具
  4. Hermes 生成回复,并通过配置的 TTS 服务商将其转换为语音
  5. 语音以气泡形式出现在 Telegram,同时附上文字版本

完整的交互循环通常在 3–8 秒内完成,具体取决于 TTS 服务商和消息长度。

关键在于,智能体的持久化记忆让对话拥有上下文。它知道你是谁、你之前做过什么、你的偏好是什么。这不是无状态的语音搜索,而是与一个真正记得你的助手进行对话。

晨间简报

最稳定、最具价值的工作流是晨间简报。配置一个定时技能,在你指定的时间触发,通过 Telegram 语音消息推送结构化更新:

# In your agent's skill configuration
- name: morning_briefing
  cron: "0 7 * * *"
  prompt: |
    Give me a brief morning update. Include any reminders set for today,
    a quick note on what I was working on yesterday, and a one-sentence
    focus suggestion. Keep it under 90 seconds of spoken audio.

醒来就能听到 Telegram 里的语音消息。无需点亮屏幕、无需滑动浏览、也无需纠结先看什么。

Telegram 聊天界面显示来自 Hermes 机器人的晨间简报语音消息,下方可见转录文字

随时随地捕捉任务

在任何生产力系统中,摩擦最高的时刻之一就是:在想法消散之前把它记录下来。语音加 Telegram 几乎将这种摩擦降为零。

按住麦克风按钮,说:"提醒我在周四之前跟 Sarah 跟进合同的事。"松手,完成。

智能体转录、理解意图、创建提醒,并用语音确认:"收到。我会在周三晚上提醒你跟进 Sarah 的合同。"

无论是步行、免手持驾驶、做饭,还是任何打开备忘录应用都不方便的场景,这一流程都同样适用。由于 Hermes 拥有持久化记忆,捕捉到的任务不会孤立地漂浮在某个独立应用里,而是存在于智能体对你工作全局认知的上下文中。

快速查询

语音特别适合那些打字起来感觉不成比例地繁琐的简单查询:

  • "230 华氏度等于多少摄氏度?"
  • "两汤匙橄榄油是多少毫升?"
  • "上周二我们聊到的那个框架叫什么名字?"
  • "总结一下我昨天在做什么。"

这些问题说起来轻而易举,打出来却感觉费劲。Telegram 上的语音模式让你的智能体感觉像是思维的自然延伸,而不是一个需要刻意操作的工具。

口述与起草

Hermes 可以作为语音驱动的起草助手。说出一个粗略的想法,让智能体帮你打磨成型:

"帮我给客户写一封简短的道歉邮件,说明发货延误的情况。语气专业但不失温度,不超过 150 字。"

智能体写好草稿并以文字发送,同时附上语音确认。你可以用语音进一步修改,或直接复制到邮件客户端。在最终发送之前,无需碰键盘。

这种方式特别适合:

  • 通勤途中回复邮件
  • 通话结束后立即口述会议记录,避免细节遗忘
  • 头脑风暴时随时记录灵感,不打断思路

"以其人之道还其人之身"模式

Hermes 可以配置为匹配你的沟通方式。在"以其人之道"模式下:

  • 你发语音——Hermes 回复语音
  • 你发文字——Hermes 回复文字

这是最自然的设置。双手空闲、想阅读时,你打字;在移动中时,你说话。智能体自动适应,无需逐条消息手动切换。

config.yaml 中设置 TTS 模式即可启用:

tts:
  mode: reply_in_kind

多语言语音

Hermes 使用 Whisper 进行转录,支持 90 余种语言。你可以用西班牙语、葡萄牙语、法语或其他任何受支持的语言交流,智能体会自动转录、处理并以对应语言回复。

对于多语言家庭或团队,不同成员可以用各自偏好的语言与同一个智能体互动。智能体的记忆和技能是共享的,只有界面语言会随对话自动适配。

手机上打开的 Telegram 显示两种语言的语音消息,每个音频气泡下方均有转录文字

群聊

Hermes 同样支持 Telegram 群聊。多名用户可以向同一个机器人发送语音消息,非常适合希望共享 AI 助手而无需切换应用的小团队。智能体对每条消息单独回复,并在对话线程中保持上下文连贯。

在 Telegram 上配置语音

如果你是自行运行 Hermes:

  1. 安装消息与语音扩展:pip install "hermes-agent[messaging,voice]"
  2. 将 Telegram 机器人 token 添加到 config.yaml
  3. 配置 TTS 服务商(Edge TTS 开箱即用,无需 API 密钥)
  4. 启动网关:hermes gateway start --detach
  5. 向机器人发送一条语音消息进行测试

如果你使用的是 Hermify,只需在控制台中两步即可连接 Telegram,机器人绑定后语音模式立即生效。无需终端,无需管理网关。

把语音工作流变成习惯

语音工作流能够坚持下去的前提是摩擦足够低。以下几点有助于建立习惯:

  • 在 Telegram 中置顶机器人对话,让它始终触手可及,不会被淹没在应用列表里
  • 从一个工作流开始——晨间简报的杠杆效应最高。等它成为习惯后,再加入任务捕捉,然后是起草
  • 启用"以其人之道"模式,这样当你坐在桌前想阅读文字时,不会被语音消息刷屏

目标不是用语音替代所有工具,而是消除那些打字本就不是正确交互方式的场景中的摩擦。

参考资料

运行你自己的 Hermes Agent

自带 API 密钥,连接 Telegram,60 秒内即可上线一个自我改进的 AI 智能体。

立即开始