Modalità vocale di Hermes Agent: parla con la tua AI invece di scrivere
Una guida completa alle funzionalità vocali di Hermes Agent: input da microfono nella CLI, risposte parlate su Telegram e Discord, e conversazioni vocali live nei canali vocali di Discord.

Scrivere non è l'unico modo di usare l'AI
Nel 2026 l'interfaccia dominante per gli strumenti AI è ancora il testo. Scrivi un messaggio, leggi una risposta. Funziona bene per molti compiti. Ma ci sono situazioni in cui la voce è semplicemente meglio:
- Stai camminando e vuoi ragionare su un problema ad alta voce
- Stai cucinando e vuoi chiedere un sostituto in una ricetta
- Stai guidando e vuoi che ti leggano il briefing mattutino
- Sei in un canale vocale Discord e vuoi che l'agente partecipi alla conversazione
Hermes Agent ha la modalità vocale integrata su tre superfici: la CLI, Telegram e Discord. Non si tratta di un wrapper text-to-speech aggiunto di fretta. È un'interazione vocale completa: parli, l'agente ascolta, trascrive, elabora e risponde con audio parlato.
Ecco come funziona ogni funzionalità vocale, cosa serve per configurarla e a cosa serve concretamente.
Panoramica della modalità vocale
Hermes supporta tre distinti pattern di interazione vocale:
| Funzionalità | Dove funziona | Cosa fa |
|---|---|---|
| Voce interattiva | CLI | Premi Ctrl+B per registrare. L'agente trascrive, elabora e mostra la risposta. |
| Risposta vocale automatica | Telegram, Discord | L'agente invia audio parlato insieme alle risposte testuali. Invia un messaggio vocale, ricevi una risposta vocale. |
| Canale vocale | Discord | Il bot entra in un canale vocale, ascolta gli utenti parlare e risponde a voce in tempo reale. |
Ogni modalità serve un caso d'uso diverso. Vediamoli uno per uno.
Modalità vocale nella CLI: parla nel terminale
La funzionalità vocale più semplice. All'interno di una sessione CLI di Hermes, premi Ctrl+B per iniziare a registrare. Parla il tuo messaggio. Premi di nuovo Ctrl+B (o aspetta il rilevamento del silenzio) per fermarti. Hermes trascrive il tuo discorso, lo elabora come un messaggio normale e risponde.
Cosa ti serve
pip install "hermes-agent[voice]"
Questo installa sounddevice e numpy per la cattura dal microfono e l'elaborazione audio. Hai anche bisogno di un microfono funzionante collegato alla tua macchina.
Quando è utile la modalità vocale nella CLI
- Brainstorming a mani libere: ragiona su un problema mentre cammini per il tuo ufficio. Hermes tiene il passo.
- Accessibilità: se scrivere è difficile o lento, l'input vocale rimuove la barriera.
- Dettatura di testi lunghi: descrivi verbalmente un'attività complessa invece di digitare un paragrafo di istruzioni.
La modalità vocale CLI è la funzionalità vocale più orientata agli sviluppatori. È utile, ma la vera magia avviene sulle piattaforme di messaggistica.
Voce su Telegram: invia un messaggio vocale, ricevi una risposta vocale
Qui la modalità vocale diventa genuinamente utile per gli utenti non tecnici. Su Telegram:
- Invii un messaggio vocale (tieni premuto il pulsante del microfono, parla, rilascia)
- Hermes trascrive il tuo messaggio
- Hermes lo elabora normalmente
- Hermes risponde con un messaggio audio parlato insieme alla risposta testuale
Puoi avere una conversazione interamente vocale con il tuo agente su Telegram. Nessuna digitazione necessaria.
Cosa ti serve
pip install "hermes-agent[messaging]"
Più la configurazione standard del bot Telegram (token del bot da BotFather, configurato in config.yaml).
Per un output vocale di qualità superiore, puoi configurare provider TTS premium come ElevenLabs:
pip install "hermes-agent[tts-premium]"
L'esperienza vocale su Telegram nella pratica
Immagina questo flusso di lavoro:
- Stai andando al lavoro a piedi. Tieni premuto il tasto microfono in Telegram e dici: "Cosa ho in programma oggi? E ricordami di chiamare il dentista alle 15."
- Hermes controlla il tuo contesto, imposta il promemoria e risponde con un messaggio vocale: "Hai due riunioni stamattina, un standup alle 10 e una revisione di prodotto alle 11:30. Ho impostato un promemoria per la telefonata al dentista alle 15."
L'intera interazione è vocale. Non apri mai la tastiera.
Configurazione della risposta vocale automatica
Per impostazione predefinita, Hermes invia sia risposte testuali che audio su Telegram quando la modalità vocale è abilitata. Puoi configurare questo comportamento:
- Sempre voce: ogni risposta include audio parlato
- Rispondi in modo speculare: i messaggi vocali ricevono risposte vocali, i messaggi di testo ricevono risposte di testo
- Solo testo: disabilita l'output vocale mantenendo l'input vocale
La modalità "rispondi in modo speculare" è la più naturale. Si adatta automaticamente allo stile di comunicazione dell'utente.
Canale vocale Discord: conversazione dal vivo
La funzionalità vocale più avanzata. Hermes può entrare in un canale vocale Discord, ascoltare tutti coloro che parlano e rispondere con audio parlato in tempo reale.
Questo trasforma l'agente in un partecipante vocale nelle conversazioni di gruppo. Più utenti possono fare domande e l'agente risponde a ciascuno.
Cosa ti serve
pip install "hermes-agent[messaging]"
Il canale vocale Discord richiede discord.py[voice], incluso nell'extra messaging. Hai anche bisogno del bot Discord configurato con i permessi vocali nel tuo server.
Quando è utile il canale vocale Discord
- Brainstorming di team: l'agente partecipa a una discussione vocale, offrendo suggerimenti e rispondendo alle domande in tempo reale
- Gruppi di studio: chiedi all'agente di spiegare concetti durante una discussione dal vivo
- Server di gioco e social: l'agente può essere un assistente vocale nei canali della community
- Accessibilità: gli utenti che non riescono a scrivere possono interagire con l'agente tramite voce
Opzioni TTS
Hermes supporta più backend text-to-speech:
| Provider | Qualità | Costo | Note |
|---|---|---|---|
| TTS di sistema | Base | Gratuito | Predefinito, funziona ovunque |
| NeuTTS (locale) | Buona | Gratuito | Esegue in locale, richiede configurazione |
| ElevenLabs | Eccellente | A pagamento | Qualità premium, suono più naturale |
Per uso personale, il TTS di sistema o NeuTTS è sufficiente. Se vuoi che l'agente suoni genuinamente umano, specialmente per casi d'uso rivolti ai clienti o di creazione di contenuti, ElevenLabs vale il costo.
Per configurare ElevenLabs, aggiungi la tua chiave API in ~/.hermes/.env:
ELEVENLABS_API_KEY=your_key_here
E installa il pacchetto TTS premium:
pip install "hermes-agent[tts-premium]"
Lingue per l'input vocale
Hermes usa Whisper per il riconoscimento vocale, che supporta 99 lingue. Puoi parlare in spagnolo, francese, tedesco, mandarino o nella maggior parte delle altre lingue, e l'agente trascriverà e risponderà in modo appropriato.
La qualità della trascrizione dipende dalla configurazione del modello Whisper. Per risultati ottimali con lingue diverse dall'inglese, assicurati di usare un modello Whisper sufficientemente capace.
Considerazioni sulla privacy
I dati vocali introducono considerazioni sulla privacy che il testo non comporta:
- Registrazioni audio: verifica se il tuo provider TTS/STT conserva l'audio. Hermes stesso elabora l'audio in locale quando si usano modelli locali.
- Messaggi vocali su Telegram: Telegram memorizza i messaggi vocali sui propri server. Il bot li scarica per la trascrizione, ma gli originali rimangono nel cloud di Telegram.
- Voce Discord: i dati vocali di Discord passano attraverso l'infrastruttura di Discord prima di raggiungere il bot.
Se la privacy è una preoccupazione primaria, la trascrizione Whisper locale e il TTS locale (NeuTTS) mantengono tutta l'elaborazione audio sulla tua infrastruttura.
L'appeal per i non tecnici
La modalità vocale è la funzionalità che rende Hermes accessibile a persone che non userebbero mai un terminale. Se configuri un agente Hermes per un familiare, un amico o il titolare di una piccola impresa, la voce su Telegram è l'interfaccia che useranno davvero.
Pensa dal loro punto di vista: non devono imparare una CLI, non devono capire la configurazione dei modelli e non devono digitare. Premono e tengono premuto un pulsante in un'app che usano già (Telegram), parlano in modo naturale e ricevono una risposta parlata. Questa è l'esperienza che colma il divario tra "potente agente AI" e "strumento che userebbero anche i miei genitori."
Configurare la modalità vocale
Se stai eseguendo Hermes autonomamente:
- Installa il supporto vocale:
pip install "hermes-agent[voice,messaging]" - Configura il TTS in
config.yaml(o usa i valori predefiniti) - Avvia il gateway:
hermes gateway start --detach - Invia un messaggio vocale al tuo bot Telegram
Se stai usando Hermify, la modalità vocale funziona immediatamente una volta collegato il tuo bot Telegram. Nessuna installazione o configurazione aggiuntiva necessaria.
Fonti
Avvia il tuo Hermes Agent
Porta la tua chiave API, collega Telegram e ottieni un agente IA che migliora da solo, online in 60 secondi.
Inizia ora