返回博客
VoiceTTSHermesAI Agents

Hermes Agent TTS 服务商对比:如何做出正确选择

全面对比 Hermes Agent 支持的所有 TTS 服务商——Edge TTS、ElevenLabs、NeuTTS、OpenAI 等。包含配置步骤、音质对比,以及针对不同使用场景的选型建议。

作者:Hermify Team||阅读约 3 分钟
波形可视化图,多条彩色音频轨道代表不同的 TTS 服务商

十个服务商,一个问题:哪个最适合你?

Hermes Agent 支持十种 TTS(文本转语音)服务商。这比大多数 AI 智能体框架提供的选项都要多,意味着你可以根据自己的需求,在音质、成本和隐私之间精确取舍——从完全免费的本地方案,到与真人声音难以分辨的高端云端语音,应有尽有。

本文将逐一介绍每个支持的服务商:配置方式、音质取舍,以及针对不同使用场景的明确建议。

完整服务商列表

服务商 费用 API 密钥 备注
Edge TTS 免费 无需 默认选项,400+ 种声音,音质扎实
NeuTTS 免费 无需 完全本地运行,支持声音克隆
Piper 免费 无需 轻量级离线引擎
KittenTTS 免费 无需 轻量级本地替代方案
ElevenLabs 付费 需要 音质最佳,支持声音克隆
OpenAI TTS 付费 需要 快速稳定,提供 6 种声音
MiniMax 付费 需要 亚洲语言支持出色
Mistral Voxtral 付费 需要 专注低延迟
Google Gemini 付费 需要 语言覆盖广泛
xAI 付费 需要 Grok 用户的自然之选

四个服务商无需 API 密钥、完全免费;六个需要凭证并按字符或请求计费。选哪个,取决于你是追求零门槛、极致音质,还是两者之间的平衡。

免费服务商

Edge TTS

Edge TTS 是默认服务商,也是大多数用户最好的起点。它使用微软的神经语音合成基础设施,无需 API 密钥、无需额外安装、完全免费。

音质真的不错——明显优于传统的系统 TTS。它支持数十种语言的 400+ 种声音,无需付费即可胜任多语言场景。

~/.hermes/config.yaml 中配置:

tts:
  provider: edge

就这样。如果你之前没有配置过 TTS,Hermes 默认已经在使用 Edge TTS 了。

NeuTTS

NeuTTS 是追求完全本地处理的用户的最佳免费选项——数据完全不离开你的设备。它通过类似 llama.cpp 的推理方式在本地运行神经 TTS 模型,支持 GPU 或 CPU 加速。

配置步骤比 Edge TTS 多一些:

pip install neutts
sudo apt install espeak-ng   # Linux
brew install espeak-ng        # Mac

然后在 config.yaml 中配置:

tts:
  provider: neutts
  model: neuphonic/neutts-air-q4-gguf
  device: cpu   # 如有兼容 GPU 可改为 cuda

Telegram 用户请注意: NeuTTS 输出 WAV 文件,而 Telegram 语音气泡需要 Opus 格式。如果已安装 ffmpeg,Hermes 会自动完成转换:

sudo apt install ffmpeg   # Linux
brew install ffmpeg        # Mac

NeuTTS 还支持声音克隆。提供一段简短的音频样本及其文字记录即可:

tts:
  provider: neutts
  ref_audio: /path/to/your-voice-sample.wav
  ref_text: "This is the reference transcript for voice matching."

终端显示 NeuTTS 本地推理运行中,旁边是实时音频波形输出和模型统计信息

Piper 与 KittenTTS

Piper 是一款快速、轻量的离线 TTS 引擎,最初为 Home Assistant 开发。KittenTTS 是理念相近的新一代本地方案。两者在完成初始模型下载后均无需联网,适合资源受限的环境或需要始终离线的部署场景。

付费服务商

ElevenLabs

ElevenLabs 能生成目前市面上最自然的声音,已成为需要接近真人音频效果的内容创作者的首选。如果你的 Hermes 智能体用于面向客户的场景或音频内容制作,ElevenLabs 是毋庸置疑的领先者。

配置步骤:

pip install "hermes-agent[tts-premium]"

~/.hermes/.env 中添加:

ELEVENLABS_API_KEY=your_key_here

config.yaml 中配置:

tts:
  provider: elevenlabs
  voice_id: pNInz6obpgDQGcFmaJgB   # Adam(默认)
  model_id: eleven_multilingual_v2

voice_id 是核心配置项。ElevenLabs 拥有数百种预制声音,也支持从短音频样本克隆自定义声音。浏览 elevenlabs.io 的声音库,将 ID 粘贴到配置文件即可。

ElevenLabs 原生输出 Opus 音频,Telegram 语音气泡无需额外转换,响应速度也因此快于 NeuTTS。定价按用量计费。对于流量适中的个人智能体,免费额度(每月 10,000 字符)通常已经足够。

OpenAI TTS

如果你已经在为 OpenAI API 付费,TTS 是顺理成章的补充。OpenAI 提供六种声音(alloy、echo、fable、onyx、nova、shimmer),音质高、延迟低,跨语言表现稳定一致。

.env 中添加:

OPENAI_API_KEY=your_key_here

配置:

tts:
  provider: openai
  voice: nova   # 也可选 alloy、echo、fable、onyx、shimmer

OpenAI TTS 不支持声音克隆,但基础声音可靠,延迟极低,非常适合实时对话场景。

MiniMax、Mistral Voxtral、Google Gemini、xAI

这些是 Hermes 服务商列表中较新的成员,随着生态成熟而陆续加入。MiniMax 在亚洲语言 TTS 方面表现尤为突出;Mistral Voxtral 针对低延迟优化;Gemini 得益于 Google 广泛的语言覆盖;xAI 则是已在 Grok 生态中的用户的自然之选。

配置方式遵循相同的模式:在 config.yaml 中设置服务商名称,并在 .env 中添加对应的 API 密钥。

如何选择服务商?

零配置、零成本 — Edge TTS。开箱即用,无需安装任何东西。

零成本、本地处理、隐私优先 — NeuTTS,配合 espeak-ng 和 ffmpeg。

音质最佳、不介意付费 — ElevenLabs,从声音库中选取自定义 voice_id。

已在使用 OpenAI API — OpenAI TTS。稳定快速,复用现有凭证。

需要强大的多语言支持(含亚洲语言) — MiniMax。

面向客户或内容创作场景 — ElevenLabs 或 OpenAI TTS。在这些场景下,与 Edge TTS 的音质差异清晰可辨。

TTS 服务商音频波形并排对比,展示 Edge TTS、NeuTTS 和 ElevenLabs 之间的音质差异

切换服务商

切换只需修改 config.yaml 中的一行。更新 provider 字段,按需在 .env 中添加对应的 API 密钥,然后重启智能体即可。无需重新部署或重新安装任何内容。

测试 TTS 配置

在 Hermes CLI 中:

hermes
> /voice on
> Hello, this is a TTS test.

智能体将以语音回应。如果没有声音,请确认系统音频输出路由正确,并检查 .env 中是否已填写服务商的 API 密钥。

无需繁琐配置,直接上手

手动配置 TTS 并不复杂,但仍然需要一定的配置步骤,尤其是 Linux 上的 ffmpeg 和 Telegram Opus 转换这类平台特有问题。如果你希望跳过这些,Hermify 已预置并配置好 Edge TTS,开箱即用。你也可以通过控制台设置切换到 ElevenLabs——无需 SSH,无需修改配置文件。

参考资料

运行你自己的 Hermes Agent

自带 API 密钥,连接 Telegram,60 秒内即可上线一个自我改进的 AI 智能体。

立即开始