Voice Mode do Hermes Agent: Fale com Seu Agente em Vez de Digitar
Um guia completo sobre os recursos de voz do Hermes Agent: entrada por microfone no CLI, respostas faladas no Telegram e Discord, e conversas de voz ao vivo em canais de voz do Discord.

Digitar Não É a Única Forma de Usar IA
A interface dominante para ferramentas de IA em 2026 ainda é texto. Você digita uma mensagem, lê uma resposta. Isso funciona bem para muitas tarefas. Mas há situações em que voz é simplesmente melhor:
- Você está caminhando e quer pensar em voz alta sobre um problema
- Você está cozinhando e quer perguntar sobre uma substituição de ingrediente
- Você está dirigindo e quer que seu briefing matinal seja lido em voz alta
- Você está em um canal de voz do Discord e quer que o agente participe da conversa
O Hermes Agent tem modo de voz integrado em três superfícies: CLI, Telegram e Discord. Não é um wrapper de text-to-speech improvisado. É interação de voz completa: você fala, o agente ouve, transcreve, processa e responde com áudio falado.
Aqui está como cada recurso de voz funciona, o que é necessário para configurar e para o que é realmente útil.
Visão Geral do Voice Mode
O Hermes suporta três padrões distintos de interação por voz:
| Recurso | Onde Funciona | O Que Faz | |---|---|---| | Voz Interativa | CLI | Pressione Ctrl+B para gravar. O agente transcreve, processa e exibe a resposta. | | Resposta por Voz Automática | Telegram, Discord | O agente envia áudio falado junto com respostas em texto. Mande um áudio, receba uma resposta em áudio. | | Canal de Voz | Discord | O bot entra em um canal de voz, ouve os usuários falando e responde em voz alta em tempo real. |
Cada modo serve a um caso de uso diferente. Vamos detalhar cada um.
Voice Mode no CLI: Fale no Terminal
O recurso de voz mais simples. Dentro de uma sessão CLI do Hermes, pressione Ctrl+B para começar a gravar. Fale sua mensagem. Pressione Ctrl+B novamente (ou aguarde a detecção de silêncio) para parar. O Hermes transcreve sua fala, processa como uma mensagem normal e responde.
O que você precisa
pip install "hermes-agent[voice]"
Isso instala sounddevice e numpy para captura de microfone e processamento de áudio. Você também precisa de um microfone funcionando conectado à sua máquina.
Quando o voice mode no CLI é útil
- Brainstorming sem usar as mãos: pense em voz alta enquanto caminha pelo escritório. O Hermes acompanha.
- Acessibilidade: se digitar é difícil ou lento, a entrada por voz remove a barreira.
- Ditado de textos longos: descreva uma tarefa complexa verbalmente em vez de digitar um parágrafo de instruções.
O voice mode no CLI é o recurso de voz mais "orientado a desenvolvedores". É útil, mas a verdadeira mágica acontece nas plataformas de mensagens.
Voz no Telegram: Mande um Áudio, Receba uma Resposta em Áudio
É aqui que o voice mode fica genuinamente útil para usuários não técnicos. No Telegram:
- Você manda um áudio (segura o botão de microfone, fala, solta)
- O Hermes transcreve sua mensagem
- O Hermes processa normalmente
- O Hermes envia de volta uma mensagem de áudio junto com a resposta em texto
Você pode ter uma conversa inteiramente por voz com seu agente no Telegram. Sem digitar nada.
O que você precisa
pip install "hermes-agent[messaging]"
Mais a configuração padrão de bot do Telegram (token do bot do BotFather, configurado no config.yaml).
Para saída de voz de qualidade superior, você pode configurar provedores de TTS premium como o ElevenLabs:
pip install "hermes-agent[tts-premium]"
A experiência de voz no Telegram na prática
Imagine este fluxo:
- Você está indo para o trabalho a pé. Você segura o botão de microfone no Telegram e diz: "O que tenho na agenda hoje? E me lembra de ligar para o dentista às 15h."
- O Hermes verifica seu contexto, define o lembrete e envia de volta uma mensagem de áudio: "Você tem duas reuniões esta manhã, uma daily às 10h e uma revisão de produto às 11h30. Defini um lembrete para a ligação do dentista às 15h."
A interação inteira é por voz. Você nunca abre um teclado.
Configuração de Resposta por Voz Automática
Por padrão, o Hermes envia respostas em texto e áudio no Telegram quando o voice mode está habilitado. Você pode configurar esse comportamento:
- Sempre voz: cada resposta inclui áudio falado
- Responde no mesmo modo: mensagens de voz recebem respostas de voz, mensagens de texto recebem respostas de texto
- Apenas texto: desabilita saída de voz mantendo a entrada por voz
O modo "responde no mesmo modo" é o mais natural. Ele corresponde automaticamente ao estilo de comunicação do usuário.
Canal de Voz do Discord: Conversa ao Vivo
O recurso de voz mais avançado. O Hermes consegue entrar em um canal de voz do Discord, ouvir todos falando e responder com áudio falado em tempo real.
Isso transforma o agente em um participante de voz em conversas em grupo. Múltiplos usuários podem fazer perguntas, e o agente responde a cada um.
O que você precisa
pip install "hermes-agent[messaging]"
O Discord Voice requer discord.py[voice], que está incluso no extra de messaging. Você também precisa do bot do Discord configurado com permissões de voz no seu servidor.
Quando o Discord Voice é útil
- Brainstorming em equipe: o agente participa de uma discussão de voz, oferecendo sugestões e respondendo perguntas em tempo real
- Grupos de estudo: peça ao agente para explicar conceitos durante uma discussão ao vivo
- Servidores de games e sociais: o agente pode ser um helper habilitado para voz em canais de comunidade
- Acessibilidade: usuários que não conseguem digitar podem interagir com o agente por voz
Opções de TTS para Voz
O Hermes suporta múltiplos backends de text-to-speech:
| Provedor | Qualidade | Custo | Notas | |---|---|---|---| | TTS do Sistema | Básica | Gratuito | Padrão, funciona em todo lugar | | NeuTTS (local) | Boa | Gratuito | Roda localmente, requer configuração | | ElevenLabs | Excelente | Pago | Qualidade premium, som mais natural |
Para uso pessoal, o TTS do sistema ou o NeuTTS é suficiente. Se você quer que o agente soe genuinamente humano, especialmente para casos de uso voltados ao cliente ou criação de conteúdo, o ElevenLabs vale o custo.
Para configurar o ElevenLabs, adicione sua API key em ~/.hermes/.env:
ELEVENLABS_API_KEY=sua_chave_aqui
E instale o pacote de TTS premium:
pip install "hermes-agent[tts-premium]"
Idiomas de Entrada de Voz
O Hermes usa Whisper para reconhecimento de fala, que suporta 99 idiomas. Você pode falar em português, espanhol, francês, alemão, mandarim ou na maioria dos outros idiomas, e o agente vai transcrever e responder adequadamente.
A qualidade da transcrição depende da configuração do modelo Whisper. Para melhores resultados com idiomas que não sejam inglês, certifique-se de usar um modelo Whisper suficientemente capaz.
Considerações de Privacidade
Dados de voz trazem considerações de privacidade que texto não traz:
- Gravações de áudio: verifique se seu provedor de TTS/STT retém áudio. O Hermes processa áudio localmente quando usa modelos locais.
- Mensagens de voz no Telegram: o Telegram armazena mensagens de voz em seus servidores. O bot as baixa para transcrição, mas os originais permanecem na nuvem do Telegram.
- Voz no Discord: os dados de voz do Discord passam pela infraestrutura do Discord antes de chegar ao bot.
Se privacidade é uma preocupação principal, transcrição local com Whisper e TTS local (NeuTTS) mantêm todo o processamento de áudio na sua infraestrutura.
O Apelo Para Usuários Não Técnicos
O voice mode é o recurso que torna o Hermes acessível para pessoas que nunca usariam um terminal. Se você configurou um agente Hermes para um familiar, amigo ou dono de pequena empresa, voz no Telegram é a interface que eles vão realmente usar.
Pense na perspectiva deles: não precisam aprender um CLI, não precisam entender configuração de modelo e não precisam digitar. Eles seguram um botão em um app que já usam (Telegram), falam naturalmente e recebem uma resposta falada. Essa é a experiência que preenche a lacuna entre "agente de IA poderoso" e "ferramenta que meus pais usariam."
Configurando o Voice Mode
Se você está rodando o Hermes por conta própria:
- Instale suporte a voz:
pip install "hermes-agent[voice,messaging]" - Configure TTS no
config.yaml(ou use os padrões) - Inicie o gateway:
hermes gateway start --detach - Mande um áudio para o seu bot do Telegram
Se você está usando a Hermify, o voice mode funciona assim que o bot do Telegram for conectado. Nenhuma instalação ou configuração adicional é necessária.
Fontes
Lance seu próprio agente Hermes
Traga sua chave de API, conecte o Telegram e tenha um agente de IA que evolui sozinho no ar em 60 segundos.
Começar agora