Provider TTS di Hermes Agent: quale scegliere

Dieci provider, una domanda: quale fa al caso tuo?

Hermes Agent supporta dieci provider text-to-speech. Sono più opzioni di quante ne offra la maggior parte dei framework per agenti AI, il che ti permette di calibrare con precisione qualità vocale, costi e profilo di privacy - da soluzioni completamente gratuite e locali a voci cloud premium indistinguibili da un parlante umano.

Questo post analizza ogni provider supportato, i requisiti di configurazione, i compromessi qualitativi e una raccomandazione chiara per ciascun tipo di caso d'uso.

L'elenco completo dei provider

Provider	Costo	Chiave API	Note
Edge TTS	Gratuito	No	Predefinito, 400+ voci, buona qualità
NeuTTS	Gratuito	No	Completamente locale, supporta il cloning vocale
Piper	Gratuito	No	Engine offline leggero
KittenTTS	Gratuito	No	Alternativa locale leggera
ElevenLabs	A pagamento	Sì	Qualità migliore, cloning vocale
OpenAI TTS	A pagamento	Sì	Rapido, uniforme, 6 voci
MiniMax	A pagamento	Sì	Ottimo supporto per le lingue asiatiche
Mistral Voxtral	A pagamento	Sì	Bassa latenza
Google Gemini	A pagamento	Sì	Ampia copertura linguistica
xAI	A pagamento	Sì	Scelta naturale per chi usa Grok

Quattro provider non richiedono né chiave API né costi. Sei richiedono credenziali e addebitano un importo per carattere o per richiesta. La scelta giusta dipende da cosa vuoi privilegiare: zero attrito, qualità massima, o qualcosa nel mezzo.

Provider gratuiti

Edge TTS

Edge TTS è il provider predefinito e il punto di partenza migliore per la maggior parte degli utenti. Sfrutta l'infrastruttura di sintesi vocale neurale di Microsoft, non richiede chiave API, installazioni aggiuntive né costi.

La qualità è genuinamente buona - notevolmente superiore al TTS di sistema tradizionale. Supporta 400+ voci in decine di lingue, il che lo rende adatto a configurazioni multilingua senza pagare nulla.

Configurazione in ~/.hermes/config.yaml:

tts:
  provider: edge

Fine. Se non hai ancora configurato il TTS, Hermes sta già usando Edge TTS per impostazione predefinita.

NeuTTS

NeuTTS è la migliore opzione gratuita per chi vuole un'elaborazione completamente locale: nulla lascia il tuo dispositivo. Esegue un modello TTS neurale in locale tramite inferenza in stile llama.cpp, con accelerazione GPU o CPU.

La configurazione richiede qualche passaggio in più rispetto a Edge TTS:

pip install neutts
sudo apt install espeak-ng   # Linux
brew install espeak-ng        # Mac

Poi configura in config.yaml:

tts:
  provider: neutts
  model: neuphonic/neutts-air-q4-gguf
  device: cpu   # o cuda se hai una GPU compatibile

Utenti Telegram: NeuTTS produce file WAV. Telegram richiede Opus per i messaggi vocali. Hermes gestisce la conversione automaticamente se ffmpeg è installato:

sudo apt install ffmpeg   # Linux
brew install ffmpeg        # Mac

NeuTTS supporta anche il cloning vocale. Fornisci un breve campione audio e la sua trascrizione:

tts:
  provider: neutts
  ref_audio: /path/to/your-voice-sample.wav
  ref_text: "This is the reference transcript for voice matching."

Un terminale che mostra l'inferenza locale di NeuTTS in esecuzione con l'output di una forma d'onda audio in tempo reale accanto alle statistiche del modello

Piper e KittenTTS

Piper è un engine TTS offline rapido e leggero, sviluppato originariamente per Home Assistant. KittenTTS è un'opzione locale più recente con una filosofia simile. Entrambi funzionano senza connessione a Internet dopo il download iniziale del modello e sono ottime scelte per ambienti con risorse limitate o distribuzioni sempre offline.

Provider a pagamento

ElevenLabs

ElevenLabs produce le voci dal suono più naturale disponibili ed è diventata la scelta predefinita per i creator di contenuti che hanno bisogno di audio che suoni umano. Se usi il tuo agente Hermes in scenari rivolti ai clienti o stai producendo contenuti audio, ElevenLabs è il leader indiscusso.

Configurazione:

pip install "hermes-agent[tts-premium]"

Aggiungi a ~/.hermes/.env:

ELEVENLABS_API_KEY=your_key_here

Configura in config.yaml:

tts:
  provider: elevenlabs
  voice_id: pNInz6obpgDQGcFmaJgB   # Adam (predefinito)
  model_id: eleven_multilingual_v2

Il voice_id è la leva principale. ElevenLabs dispone di centinaia di voci precostituite e supporta il cloning di una voce personalizzata a partire da un breve campione audio. Sfoglia la libreria vocale su elevenlabs.io e incolla l'ID nella tua configurazione.

ElevenLabs produce audio Opus nativamente, il che significa nessun passaggio di conversione per i messaggi vocali Telegram - le risposte arrivano più velocemente rispetto a NeuTTS. La fatturazione è basata sull'utilizzo. Per un agente personale con traffico moderato, il piano gratuito (10.000 caratteri/mese) è spesso sufficiente.

OpenAI TTS

Se stai già pagando per l'accesso all'API OpenAI, il TTS è un'aggiunta naturale. Le sei voci di OpenAI (alloy, echo, fable, onyx, nova, shimmer) sono di alta qualità, a bassa latenza e uniformi tra le lingue.

Aggiungi a .env:

OPENAI_API_KEY=your_key_here

Configura:

tts:
  provider: openai
  voice: nova   # o alloy, echo, fable, onyx, shimmer

OpenAI TTS non supporta il cloning vocale, ma le voci base sono affidabili e la latenza è eccellente per i casi d'uso in conversazione in tempo reale.

MiniMax, Mistral Voxtral, Google Gemini, xAI

Questi sono i nuovi arrivati nell'elenco dei provider di Hermes, aggiunti man mano che l'ecosistema è maturato. MiniMax è particolarmente forte per il TTS in lingue asiatiche. Mistral Voxtral è ottimizzato per la bassa latenza. Gemini beneficia dell'ampia copertura linguistica di Google. xAI è la scelta naturale per chi è già nell'ecosistema Grok.

La configurazione segue lo stesso schema: imposta il nome del provider in config.yaml e aggiungi la chiave API corrispondente a .env.

Quale provider scegliere?

Zero configurazione, zero costi - Edge TTS. Già configurato, niente da installare.

Zero costi, elaborazione locale, privacy prima di tutto - NeuTTS con espeak-ng e ffmpeg.

Migliore qualità vocale, anche a pagamento - ElevenLabs con un voice ID personalizzato dalla libreria vocale.

Già sull'API di OpenAI - OpenAI TTS. Uniforme e veloce, riutilizza le credenziali esistenti.

Supporto multilingua avanzato incluse le lingue asiatiche - MiniMax.

Casi d'uso rivolti ai clienti o creazione di contenuti - ElevenLabs o OpenAI TTS. La differenza qualitativa rispetto a Edge TTS è chiaramente percepibile in questi contesti.

Confronto affiancato delle forme d'onda audio dei provider TTS che mostra le differenze qualitative tra Edge TTS, NeuTTS e ElevenLabs

Cambiare provider

Cambiare provider richiede una sola modifica in config.yaml. Aggiorna il campo provider, aggiungi l'eventuale chiave API a .env se necessario, e riavvia l'agente. Non devi effettuare un nuovo provisioning né reinstallare nulla.

Testare la configurazione TTS

Dalla CLI di Hermes:

hermes
> /voice on
> Hello, this is a TTS test.

L'agente risponderà con audio parlato. Se non senti nulla, verifica che l'uscita audio del sistema sia indirizzata correttamente e che la chiave API del provider sia presente in .env.

Eseguire Hermes senza il peso della configurazione

Configurare il TTS manualmente è semplice, ma rimane comunque un passaggio di setup con particolarità specifiche per piattaforma - specialmente per ffmpeg su Linux e la conversione Opus per Telegram. Se preferisci saltare tutto questo, Hermify viene fornito con Edge TTS preconfigurato e pronto all'uso. Puoi passare a ElevenLabs tramite le impostazioni della dashboard - niente SSH, niente file di configurazione.