Provider TTS di Hermes Agent: quale scegliere
Confronta tutti i provider TTS di Hermes Agent - Edge TTS, ElevenLabs, NeuTTS, OpenAI e altri. Passaggi di configurazione, confronto qualitativo e quale scegliere in base al tuo caso d'uso.

Dieci provider, una domanda: quale fa al caso tuo?
Hermes Agent supporta dieci provider text-to-speech. Sono più opzioni di quante ne offra la maggior parte dei framework per agenti AI, il che ti permette di calibrare con precisione qualità vocale, costi e profilo di privacy - da soluzioni completamente gratuite e locali a voci cloud premium indistinguibili da un parlante umano.
Questo post analizza ogni provider supportato, i requisiti di configurazione, i compromessi qualitativi e una raccomandazione chiara per ciascun tipo di caso d'uso.
L'elenco completo dei provider
| Provider | Costo | Chiave API | Note |
|---|---|---|---|
| Edge TTS | Gratuito | No | Predefinito, 400+ voci, buona qualità |
| NeuTTS | Gratuito | No | Completamente locale, supporta il cloning vocale |
| Piper | Gratuito | No | Engine offline leggero |
| KittenTTS | Gratuito | No | Alternativa locale leggera |
| ElevenLabs | A pagamento | Sì | Qualità migliore, cloning vocale |
| OpenAI TTS | A pagamento | Sì | Rapido, uniforme, 6 voci |
| MiniMax | A pagamento | Sì | Ottimo supporto per le lingue asiatiche |
| Mistral Voxtral | A pagamento | Sì | Bassa latenza |
| Google Gemini | A pagamento | Sì | Ampia copertura linguistica |
| xAI | A pagamento | Sì | Scelta naturale per chi usa Grok |
Quattro provider non richiedono né chiave API né costi. Sei richiedono credenziali e addebitano un importo per carattere o per richiesta. La scelta giusta dipende da cosa vuoi privilegiare: zero attrito, qualità massima, o qualcosa nel mezzo.
Provider gratuiti
Edge TTS
Edge TTS è il provider predefinito e il punto di partenza migliore per la maggior parte degli utenti. Sfrutta l'infrastruttura di sintesi vocale neurale di Microsoft, non richiede chiave API, installazioni aggiuntive né costi.
La qualità è genuinamente buona - notevolmente superiore al TTS di sistema tradizionale. Supporta 400+ voci in decine di lingue, il che lo rende adatto a configurazioni multilingua senza pagare nulla.
Configurazione in ~/.hermes/config.yaml:
tts:
provider: edge
Fine. Se non hai ancora configurato il TTS, Hermes sta già usando Edge TTS per impostazione predefinita.
NeuTTS
NeuTTS è la migliore opzione gratuita per chi vuole un'elaborazione completamente locale: nulla lascia il tuo dispositivo. Esegue un modello TTS neurale in locale tramite inferenza in stile llama.cpp, con accelerazione GPU o CPU.
La configurazione richiede qualche passaggio in più rispetto a Edge TTS:
pip install neutts
sudo apt install espeak-ng # Linux
brew install espeak-ng # Mac
Poi configura in config.yaml:
tts:
provider: neutts
model: neuphonic/neutts-air-q4-gguf
device: cpu # o cuda se hai una GPU compatibile
Utenti Telegram: NeuTTS produce file WAV. Telegram richiede Opus per i messaggi vocali. Hermes gestisce la conversione automaticamente se ffmpeg è installato:
sudo apt install ffmpeg # Linux
brew install ffmpeg # Mac
NeuTTS supporta anche il cloning vocale. Fornisci un breve campione audio e la sua trascrizione:
tts:
provider: neutts
ref_audio: /path/to/your-voice-sample.wav
ref_text: "This is the reference transcript for voice matching."

Piper e KittenTTS
Piper è un engine TTS offline rapido e leggero, sviluppato originariamente per Home Assistant. KittenTTS è un'opzione locale più recente con una filosofia simile. Entrambi funzionano senza connessione a Internet dopo il download iniziale del modello e sono ottime scelte per ambienti con risorse limitate o distribuzioni sempre offline.
Provider a pagamento
ElevenLabs
ElevenLabs produce le voci dal suono più naturale disponibili ed è diventata la scelta predefinita per i creator di contenuti che hanno bisogno di audio che suoni umano. Se usi il tuo agente Hermes in scenari rivolti ai clienti o stai producendo contenuti audio, ElevenLabs è il leader indiscusso.
Configurazione:
pip install "hermes-agent[tts-premium]"
Aggiungi a ~/.hermes/.env:
ELEVENLABS_API_KEY=your_key_here
Configura in config.yaml:
tts:
provider: elevenlabs
voice_id: pNInz6obpgDQGcFmaJgB # Adam (predefinito)
model_id: eleven_multilingual_v2
Il voice_id è la leva principale. ElevenLabs dispone di centinaia di voci precostituite e supporta il cloning di una voce personalizzata a partire da un breve campione audio. Sfoglia la libreria vocale su elevenlabs.io e incolla l'ID nella tua configurazione.
ElevenLabs produce audio Opus nativamente, il che significa nessun passaggio di conversione per i messaggi vocali Telegram - le risposte arrivano più velocemente rispetto a NeuTTS. La fatturazione è basata sull'utilizzo. Per un agente personale con traffico moderato, il piano gratuito (10.000 caratteri/mese) è spesso sufficiente.
OpenAI TTS
Se stai già pagando per l'accesso all'API OpenAI, il TTS è un'aggiunta naturale. Le sei voci di OpenAI (alloy, echo, fable, onyx, nova, shimmer) sono di alta qualità, a bassa latenza e uniformi tra le lingue.
Aggiungi a .env:
OPENAI_API_KEY=your_key_here
Configura:
tts:
provider: openai
voice: nova # o alloy, echo, fable, onyx, shimmer
OpenAI TTS non supporta il cloning vocale, ma le voci base sono affidabili e la latenza è eccellente per i casi d'uso in conversazione in tempo reale.
MiniMax, Mistral Voxtral, Google Gemini, xAI
Questi sono i nuovi arrivati nell'elenco dei provider di Hermes, aggiunti man mano che l'ecosistema è maturato. MiniMax è particolarmente forte per il TTS in lingue asiatiche. Mistral Voxtral è ottimizzato per la bassa latenza. Gemini beneficia dell'ampia copertura linguistica di Google. xAI è la scelta naturale per chi è già nell'ecosistema Grok.
La configurazione segue lo stesso schema: imposta il nome del provider in config.yaml e aggiungi la chiave API corrispondente a .env.
Quale provider scegliere?
Zero configurazione, zero costi - Edge TTS. Già configurato, niente da installare.
Zero costi, elaborazione locale, privacy prima di tutto - NeuTTS con espeak-ng e ffmpeg.
Migliore qualità vocale, anche a pagamento - ElevenLabs con un voice ID personalizzato dalla libreria vocale.
Già sull'API di OpenAI - OpenAI TTS. Uniforme e veloce, riutilizza le credenziali esistenti.
Supporto multilingua avanzato incluse le lingue asiatiche - MiniMax.
Casi d'uso rivolti ai clienti o creazione di contenuti - ElevenLabs o OpenAI TTS. La differenza qualitativa rispetto a Edge TTS è chiaramente percepibile in questi contesti.

Cambiare provider
Cambiare provider richiede una sola modifica in config.yaml. Aggiorna il campo provider, aggiungi l'eventuale chiave API a .env se necessario, e riavvia l'agente. Non devi effettuare un nuovo provisioning né reinstallare nulla.
Testare la configurazione TTS
Dalla CLI di Hermes:
hermes
> /voice on
> Hello, this is a TTS test.
L'agente risponderà con audio parlato. Se non senti nulla, verifica che l'uscita audio del sistema sia indirizzata correttamente e che la chiave API del provider sia presente in .env.
Eseguire Hermes senza il peso della configurazione
Configurare il TTS manualmente è semplice, ma rimane comunque un passaggio di setup con particolarità specifiche per piattaforma - specialmente per ffmpeg su Linux e la conversione Opus per Telegram. Se preferisci saltare tutto questo, Hermify viene fornito con Edge TTS preconfigurato e pronto all'uso. Puoi passare a ElevenLabs tramite le impostazioni della dashboard - niente SSH, niente file di configurazione.
Fonti
Avvia il tuo Hermes Agent
Porta la tua chiave API, collega Telegram e ottieni un agente IA che migliora da solo, online in 60 secondi.
Inizia ora