Hermes Agent TTS 服务商对比:如何做出正确选择
全面对比 Hermes Agent 支持的所有 TTS 服务商——Edge TTS、ElevenLabs、NeuTTS、OpenAI 等。包含配置步骤、音质对比,以及针对不同使用场景的选型建议。

十个服务商,一个问题:哪个最适合你?
Hermes Agent 支持十种 TTS(文本转语音)服务商。这比大多数 AI 智能体框架提供的选项都要多,意味着你可以根据自己的需求,在音质、成本和隐私之间精确取舍——从完全免费的本地方案,到与真人声音难以分辨的高端云端语音,应有尽有。
本文将逐一介绍每个支持的服务商:配置方式、音质取舍,以及针对不同使用场景的明确建议。
完整服务商列表
| 服务商 | 费用 | API 密钥 | 备注 |
|---|---|---|---|
| Edge TTS | 免费 | 无需 | 默认选项,400+ 种声音,音质扎实 |
| NeuTTS | 免费 | 无需 | 完全本地运行,支持声音克隆 |
| Piper | 免费 | 无需 | 轻量级离线引擎 |
| KittenTTS | 免费 | 无需 | 轻量级本地替代方案 |
| ElevenLabs | 付费 | 需要 | 音质最佳,支持声音克隆 |
| OpenAI TTS | 付费 | 需要 | 快速稳定,提供 6 种声音 |
| MiniMax | 付费 | 需要 | 亚洲语言支持出色 |
| Mistral Voxtral | 付费 | 需要 | 专注低延迟 |
| Google Gemini | 付费 | 需要 | 语言覆盖广泛 |
| xAI | 付费 | 需要 | Grok 用户的自然之选 |
四个服务商无需 API 密钥、完全免费;六个需要凭证并按字符或请求计费。选哪个,取决于你是追求零门槛、极致音质,还是两者之间的平衡。
免费服务商
Edge TTS
Edge TTS 是默认服务商,也是大多数用户最好的起点。它使用微软的神经语音合成基础设施,无需 API 密钥、无需额外安装、完全免费。
音质真的不错——明显优于传统的系统 TTS。它支持数十种语言的 400+ 种声音,无需付费即可胜任多语言场景。
在 ~/.hermes/config.yaml 中配置:
tts:
provider: edge
就这样。如果你之前没有配置过 TTS,Hermes 默认已经在使用 Edge TTS 了。
NeuTTS
NeuTTS 是追求完全本地处理的用户的最佳免费选项——数据完全不离开你的设备。它通过类似 llama.cpp 的推理方式在本地运行神经 TTS 模型,支持 GPU 或 CPU 加速。
配置步骤比 Edge TTS 多一些:
pip install neutts
sudo apt install espeak-ng # Linux
brew install espeak-ng # Mac
然后在 config.yaml 中配置:
tts:
provider: neutts
model: neuphonic/neutts-air-q4-gguf
device: cpu # 如有兼容 GPU 可改为 cuda
Telegram 用户请注意: NeuTTS 输出 WAV 文件,而 Telegram 语音气泡需要 Opus 格式。如果已安装 ffmpeg,Hermes 会自动完成转换:
sudo apt install ffmpeg # Linux
brew install ffmpeg # Mac
NeuTTS 还支持声音克隆。提供一段简短的音频样本及其文字记录即可:
tts:
provider: neutts
ref_audio: /path/to/your-voice-sample.wav
ref_text: "This is the reference transcript for voice matching."

Piper 与 KittenTTS
Piper 是一款快速、轻量的离线 TTS 引擎,最初为 Home Assistant 开发。KittenTTS 是理念相近的新一代本地方案。两者在完成初始模型下载后均无需联网,适合资源受限的环境或需要始终离线的部署场景。
付费服务商
ElevenLabs
ElevenLabs 能生成目前市面上最自然的声音,已成为需要接近真人音频效果的内容创作者的首选。如果你的 Hermes 智能体用于面向客户的场景或音频内容制作,ElevenLabs 是毋庸置疑的领先者。
配置步骤:
pip install "hermes-agent[tts-premium]"
在 ~/.hermes/.env 中添加:
ELEVENLABS_API_KEY=your_key_here
在 config.yaml 中配置:
tts:
provider: elevenlabs
voice_id: pNInz6obpgDQGcFmaJgB # Adam(默认)
model_id: eleven_multilingual_v2
voice_id 是核心配置项。ElevenLabs 拥有数百种预制声音,也支持从短音频样本克隆自定义声音。浏览 elevenlabs.io 的声音库,将 ID 粘贴到配置文件即可。
ElevenLabs 原生输出 Opus 音频,Telegram 语音气泡无需额外转换,响应速度也因此快于 NeuTTS。定价按用量计费。对于流量适中的个人智能体,免费额度(每月 10,000 字符)通常已经足够。
OpenAI TTS
如果你已经在为 OpenAI API 付费,TTS 是顺理成章的补充。OpenAI 提供六种声音(alloy、echo、fable、onyx、nova、shimmer),音质高、延迟低,跨语言表现稳定一致。
在 .env 中添加:
OPENAI_API_KEY=your_key_here
配置:
tts:
provider: openai
voice: nova # 也可选 alloy、echo、fable、onyx、shimmer
OpenAI TTS 不支持声音克隆,但基础声音可靠,延迟极低,非常适合实时对话场景。
MiniMax、Mistral Voxtral、Google Gemini、xAI
这些是 Hermes 服务商列表中较新的成员,随着生态成熟而陆续加入。MiniMax 在亚洲语言 TTS 方面表现尤为突出;Mistral Voxtral 针对低延迟优化;Gemini 得益于 Google 广泛的语言覆盖;xAI 则是已在 Grok 生态中的用户的自然之选。
配置方式遵循相同的模式:在 config.yaml 中设置服务商名称,并在 .env 中添加对应的 API 密钥。
如何选择服务商?
零配置、零成本 — Edge TTS。开箱即用,无需安装任何东西。
零成本、本地处理、隐私优先 — NeuTTS,配合 espeak-ng 和 ffmpeg。
音质最佳、不介意付费 — ElevenLabs,从声音库中选取自定义 voice_id。
已在使用 OpenAI API — OpenAI TTS。稳定快速,复用现有凭证。
需要强大的多语言支持(含亚洲语言) — MiniMax。
面向客户或内容创作场景 — ElevenLabs 或 OpenAI TTS。在这些场景下,与 Edge TTS 的音质差异清晰可辨。

切换服务商
切换只需修改 config.yaml 中的一行。更新 provider 字段,按需在 .env 中添加对应的 API 密钥,然后重启智能体即可。无需重新部署或重新安装任何内容。
测试 TTS 配置
在 Hermes CLI 中:
hermes
> /voice on
> Hello, this is a TTS test.
智能体将以语音回应。如果没有声音,请确认系统音频输出路由正确,并检查 .env 中是否已填写服务商的 API 密钥。
无需繁琐配置,直接上手
手动配置 TTS 并不复杂,但仍然需要一定的配置步骤,尤其是 Linux 上的 ffmpeg 和 Telegram Opus 转换这类平台特有问题。如果你希望跳过这些,Hermify 已预置并配置好 Edge TTS,开箱即用。你也可以通过控制台设置切换到 ElevenLabs——无需 SSH,无需修改配置文件。