Voice Mode do Hermes Agent: Fale com Seu Agente em Vez de Digitar

Digitar Não É a Única Forma de Usar IA

A interface dominante para ferramentas de IA em 2026 ainda é texto. Você digita uma mensagem, lê uma resposta. Isso funciona bem para muitas tarefas. Mas há situações em que voz é simplesmente melhor:

Você está caminhando e quer pensar em voz alta sobre um problema
Você está cozinhando e quer perguntar sobre uma substituição de ingrediente
Você está dirigindo e quer que seu briefing matinal seja lido em voz alta
Você está em um canal de voz do Discord e quer que o agente participe da conversa

O Hermes Agent tem modo de voz integrado em três superfícies: CLI, Telegram e Discord. Não é um wrapper de text-to-speech improvisado. É interação de voz completa: você fala, o agente ouve, transcreve, processa e responde com áudio falado.

Aqui está como cada recurso de voz funciona, o que é necessário para configurar e para o que é realmente útil.

Visão Geral do Voice Mode

O Hermes suporta três padrões distintos de interação por voz:

Recurso	Onde Funciona	O Que Faz
Voz Interativa	CLI	Pressione Ctrl+B para gravar. O agente transcreve, processa e exibe a resposta.
Resposta por Voz Automática	Telegram, Discord	O agente envia áudio falado junto com respostas em texto. Mande um áudio, receba uma resposta em áudio.
Canal de Voz	Discord	O bot entra em um canal de voz, ouve os usuários falando e responde em voz alta em tempo real.

Cada modo serve a um caso de uso diferente. Vamos detalhar cada um.

Voice Mode no CLI: Fale no Terminal

O recurso de voz mais simples. Dentro de uma sessão CLI do Hermes, pressione Ctrl+B para começar a gravar. Fale sua mensagem. Pressione Ctrl+B novamente (ou aguarde a detecção de silêncio) para parar. O Hermes transcreve sua fala, processa como uma mensagem normal e responde.

O que você precisa

pip install "hermes-agent[voice]"

Isso instala sounddevice e numpy para captura de microfone e processamento de áudio. Você também precisa de um microfone funcionando conectado à sua máquina.

Quando o voice mode no CLI é útil

Brainstorming sem usar as mãos: pense em voz alta enquanto caminha pelo escritório. O Hermes acompanha.
Acessibilidade: se digitar é difícil ou lento, a entrada por voz remove a barreira.
Ditado de textos longos: descreva uma tarefa complexa verbalmente em vez de digitar um parágrafo de instruções.

O voice mode no CLI é o recurso de voz mais "orientado a desenvolvedores". É útil, mas a verdadeira mágica acontece nas plataformas de mensagens.

Voz no Telegram: Mande um Áudio, Receba uma Resposta em Áudio

É aqui que o voice mode fica genuinamente útil para usuários não técnicos. No Telegram:

Você manda um áudio (segura o botão de microfone, fala, solta)
O Hermes transcreve sua mensagem
O Hermes processa normalmente
O Hermes envia de volta uma mensagem de áudio junto com a resposta em texto

Você pode ter uma conversa inteiramente por voz com seu agente no Telegram. Sem digitar nada.

O que você precisa

pip install "hermes-agent[messaging]"

Mais a configuração padrão de bot do Telegram (token do bot do BotFather, configurado no config.yaml).

Para saída de voz de qualidade superior, você pode configurar provedores de TTS premium como o ElevenLabs:

pip install "hermes-agent[tts-premium]"

A experiência de voz no Telegram na prática

Imagine este fluxo:

Você está indo para o trabalho a pé. Você segura o botão de microfone no Telegram e diz: "O que tenho na agenda hoje? E me lembra de ligar para o dentista às 15h."
O Hermes verifica seu contexto, define o lembrete e envia de volta uma mensagem de áudio: "Você tem duas reuniões esta manhã, uma daily às 10h e uma revisão de produto às 11h30. Defini um lembrete para a ligação do dentista às 15h."

A interação inteira é por voz. Você nunca abre um teclado.

Configuração de Resposta por Voz Automática

Por padrão, o Hermes envia respostas em texto e áudio no Telegram quando o voice mode está habilitado. Você pode configurar esse comportamento:

Sempre voz: cada resposta inclui áudio falado
Responde no mesmo modo: mensagens de voz recebem respostas de voz, mensagens de texto recebem respostas de texto
Apenas texto: desabilita saída de voz mantendo a entrada por voz

O modo "responde no mesmo modo" é o mais natural. Ele corresponde automaticamente ao estilo de comunicação do usuário.

Canal de Voz do Discord: Conversa ao Vivo

O recurso de voz mais avançado. O Hermes consegue entrar em um canal de voz do Discord, ouvir todos falando e responder com áudio falado em tempo real.

Isso transforma o agente em um participante de voz em conversas em grupo. Múltiplos usuários podem fazer perguntas, e o agente responde a cada um.

O que você precisa

pip install "hermes-agent[messaging]"

O Discord Voice requer discord.py[voice], que está incluso no extra de messaging. Você também precisa do bot do Discord configurado com permissões de voz no seu servidor.

Quando o Discord Voice é útil

Brainstorming em equipe: o agente participa de uma discussão de voz, oferecendo sugestões e respondendo perguntas em tempo real
Grupos de estudo: peça ao agente para explicar conceitos durante uma discussão ao vivo
Servidores de games e sociais: o agente pode ser um helper habilitado para voz em canais de comunidade
Acessibilidade: usuários que não conseguem digitar podem interagir com o agente por voz

Opções de TTS para Voz

O Hermes suporta múltiplos backends de text-to-speech:

Provedor	Qualidade	Custo	Notas
TTS do Sistema	Básica	Gratuito	Padrão, funciona em todo lugar
NeuTTS (local)	Boa	Gratuito	Roda localmente, requer configuração
ElevenLabs	Excelente	Pago	Qualidade premium, som mais natural

Para uso pessoal, o TTS do sistema ou o NeuTTS é suficiente. Se você quer que o agente soe genuinamente humano, especialmente para casos de uso voltados ao cliente ou criação de conteúdo, o ElevenLabs vale o custo.

Para configurar o ElevenLabs, adicione sua API key em ~/.hermes/.env:

ELEVENLABS_API_KEY=sua_chave_aqui

E instale o pacote de TTS premium:

pip install "hermes-agent[tts-premium]"

Idiomas de Entrada de Voz

O Hermes usa Whisper para reconhecimento de fala, que suporta 99 idiomas. Você pode falar em português, espanhol, francês, alemão, mandarim ou na maioria dos outros idiomas, e o agente vai transcrever e responder adequadamente.

A qualidade da transcrição depende da configuração do modelo Whisper. Para melhores resultados com idiomas que não sejam inglês, certifique-se de usar um modelo Whisper suficientemente capaz.

Considerações de Privacidade

Dados de voz trazem considerações de privacidade que texto não traz:

Gravações de áudio: verifique se seu provedor de TTS/STT retém áudio. O Hermes processa áudio localmente quando usa modelos locais.
Mensagens de voz no Telegram: o Telegram armazena mensagens de voz em seus servidores. O bot as baixa para transcrição, mas os originais permanecem na nuvem do Telegram.
Voz no Discord: os dados de voz do Discord passam pela infraestrutura do Discord antes de chegar ao bot.

Se privacidade é uma preocupação principal, transcrição local com Whisper e TTS local (NeuTTS) mantêm todo o processamento de áudio na sua infraestrutura.

O Apelo Para Usuários Não Técnicos

O voice mode é o recurso que torna o Hermes acessível para pessoas que nunca usariam um terminal. Se você configurou um agente Hermes para um familiar, amigo ou dono de pequena empresa, voz no Telegram é a interface que eles vão realmente usar.

Pense na perspectiva deles: não precisam aprender um CLI, não precisam entender configuração de modelo e não precisam digitar. Eles seguram um botão em um app que já usam (Telegram), falam naturalmente e recebem uma resposta falada. Essa é a experiência que preenche a lacuna entre "agente de IA poderoso" e "ferramenta que meus pais usariam."

Configurando o Voice Mode

Se você está rodando o Hermes por conta própria:

Instale suporte a voz: pip install "hermes-agent[voice,messaging]"
Configure TTS no config.yaml (ou use os padrões)
Inicie o gateway: hermes gateway start --detach
Mande um áudio para o seu bot do Telegram

Se você está usando a Hermify, o voice mode funciona assim que o bot do Telegram for conectado. Nenhuma instalação ou configuração adicional é necessária.

Voice Mode do Hermes Agent: Fale com Seu Agente em Vez de Digitar

Digitar Não É a Única Forma de Usar IA

Visão Geral do Voice Mode

Voice Mode no CLI: Fale no Terminal

O que você precisa

Quando o voice mode no CLI é útil

Voz no Telegram: Mande um Áudio, Receba uma Resposta em Áudio

O que você precisa

A experiência de voz no Telegram na prática

Configuração de Resposta por Voz Automática

Canal de Voz do Discord: Conversa ao Vivo

O que você precisa

Quando o Discord Voice é útil

Opções de TTS para Voz

Idiomas de Entrada de Voz

Considerações de Privacidade

O Apelo Para Usuários Não Técnicos

Configurando o Voice Mode

Fontes

Lance seu próprio agente Hermes