Voltar ao Blog
HermesVoiceTelegramDiscordTTSAI Agents

Voice Mode do Hermes Agent: Fale com Seu Agente em Vez de Digitar

Um guia completo sobre os recursos de voz do Hermes Agent: entrada por microfone no CLI, respostas faladas no Telegram e Discord, e conversas de voz ao vivo em canais de voz do Discord.

Por Hermify Team||7 min de leitura
Um microfone com ondas sonoras verdes emanando dele, cercado por ícones de balões de chat representando interações de voz pelo Telegram, Discord e CLI

Digitar Não É a Única Forma de Usar IA

A interface dominante para ferramentas de IA em 2026 ainda é texto. Você digita uma mensagem, lê uma resposta. Isso funciona bem para muitas tarefas. Mas há situações em que voz é simplesmente melhor:

  • Você está caminhando e quer pensar em voz alta sobre um problema
  • Você está cozinhando e quer perguntar sobre uma substituição de ingrediente
  • Você está dirigindo e quer que seu briefing matinal seja lido em voz alta
  • Você está em um canal de voz do Discord e quer que o agente participe da conversa

O Hermes Agent tem modo de voz integrado em três superfícies: CLI, Telegram e Discord. Não é um wrapper de text-to-speech improvisado. É interação de voz completa: você fala, o agente ouve, transcreve, processa e responde com áudio falado.

Aqui está como cada recurso de voz funciona, o que é necessário para configurar e para o que é realmente útil.

Visão Geral do Voice Mode

O Hermes suporta três padrões distintos de interação por voz:

| Recurso | Onde Funciona | O Que Faz | |---|---|---| | Voz Interativa | CLI | Pressione Ctrl+B para gravar. O agente transcreve, processa e exibe a resposta. | | Resposta por Voz Automática | Telegram, Discord | O agente envia áudio falado junto com respostas em texto. Mande um áudio, receba uma resposta em áudio. | | Canal de Voz | Discord | O bot entra em um canal de voz, ouve os usuários falando e responde em voz alta em tempo real. |

Cada modo serve a um caso de uso diferente. Vamos detalhar cada um.

Voice Mode no CLI: Fale no Terminal

O recurso de voz mais simples. Dentro de uma sessão CLI do Hermes, pressione Ctrl+B para começar a gravar. Fale sua mensagem. Pressione Ctrl+B novamente (ou aguarde a detecção de silêncio) para parar. O Hermes transcreve sua fala, processa como uma mensagem normal e responde.

O que você precisa

pip install "hermes-agent[voice]"

Isso instala sounddevice e numpy para captura de microfone e processamento de áudio. Você também precisa de um microfone funcionando conectado à sua máquina.

Quando o voice mode no CLI é útil

  • Brainstorming sem usar as mãos: pense em voz alta enquanto caminha pelo escritório. O Hermes acompanha.
  • Acessibilidade: se digitar é difícil ou lento, a entrada por voz remove a barreira.
  • Ditado de textos longos: descreva uma tarefa complexa verbalmente em vez de digitar um parágrafo de instruções.

O voice mode no CLI é o recurso de voz mais "orientado a desenvolvedores". É útil, mas a verdadeira mágica acontece nas plataformas de mensagens.

Voz no Telegram: Mande um Áudio, Receba uma Resposta em Áudio

É aqui que o voice mode fica genuinamente útil para usuários não técnicos. No Telegram:

  1. Você manda um áudio (segura o botão de microfone, fala, solta)
  2. O Hermes transcreve sua mensagem
  3. O Hermes processa normalmente
  4. O Hermes envia de volta uma mensagem de áudio junto com a resposta em texto

Você pode ter uma conversa inteiramente por voz com seu agente no Telegram. Sem digitar nada.

O que você precisa

pip install "hermes-agent[messaging]"

Mais a configuração padrão de bot do Telegram (token do bot do BotFather, configurado no config.yaml).

Para saída de voz de qualidade superior, você pode configurar provedores de TTS premium como o ElevenLabs:

pip install "hermes-agent[tts-premium]"

A experiência de voz no Telegram na prática

Imagine este fluxo:

  1. Você está indo para o trabalho a pé. Você segura o botão de microfone no Telegram e diz: "O que tenho na agenda hoje? E me lembra de ligar para o dentista às 15h."
  2. O Hermes verifica seu contexto, define o lembrete e envia de volta uma mensagem de áudio: "Você tem duas reuniões esta manhã, uma daily às 10h e uma revisão de produto às 11h30. Defini um lembrete para a ligação do dentista às 15h."

A interação inteira é por voz. Você nunca abre um teclado.

Configuração de Resposta por Voz Automática

Por padrão, o Hermes envia respostas em texto e áudio no Telegram quando o voice mode está habilitado. Você pode configurar esse comportamento:

  • Sempre voz: cada resposta inclui áudio falado
  • Responde no mesmo modo: mensagens de voz recebem respostas de voz, mensagens de texto recebem respostas de texto
  • Apenas texto: desabilita saída de voz mantendo a entrada por voz

O modo "responde no mesmo modo" é o mais natural. Ele corresponde automaticamente ao estilo de comunicação do usuário.

Canal de Voz do Discord: Conversa ao Vivo

O recurso de voz mais avançado. O Hermes consegue entrar em um canal de voz do Discord, ouvir todos falando e responder com áudio falado em tempo real.

Isso transforma o agente em um participante de voz em conversas em grupo. Múltiplos usuários podem fazer perguntas, e o agente responde a cada um.

O que você precisa

pip install "hermes-agent[messaging]"

O Discord Voice requer discord.py[voice], que está incluso no extra de messaging. Você também precisa do bot do Discord configurado com permissões de voz no seu servidor.

Quando o Discord Voice é útil

  • Brainstorming em equipe: o agente participa de uma discussão de voz, oferecendo sugestões e respondendo perguntas em tempo real
  • Grupos de estudo: peça ao agente para explicar conceitos durante uma discussão ao vivo
  • Servidores de games e sociais: o agente pode ser um helper habilitado para voz em canais de comunidade
  • Acessibilidade: usuários que não conseguem digitar podem interagir com o agente por voz

Opções de TTS para Voz

O Hermes suporta múltiplos backends de text-to-speech:

| Provedor | Qualidade | Custo | Notas | |---|---|---|---| | TTS do Sistema | Básica | Gratuito | Padrão, funciona em todo lugar | | NeuTTS (local) | Boa | Gratuito | Roda localmente, requer configuração | | ElevenLabs | Excelente | Pago | Qualidade premium, som mais natural |

Para uso pessoal, o TTS do sistema ou o NeuTTS é suficiente. Se você quer que o agente soe genuinamente humano, especialmente para casos de uso voltados ao cliente ou criação de conteúdo, o ElevenLabs vale o custo.

Para configurar o ElevenLabs, adicione sua API key em ~/.hermes/.env:

ELEVENLABS_API_KEY=sua_chave_aqui

E instale o pacote de TTS premium:

pip install "hermes-agent[tts-premium]"

Idiomas de Entrada de Voz

O Hermes usa Whisper para reconhecimento de fala, que suporta 99 idiomas. Você pode falar em português, espanhol, francês, alemão, mandarim ou na maioria dos outros idiomas, e o agente vai transcrever e responder adequadamente.

A qualidade da transcrição depende da configuração do modelo Whisper. Para melhores resultados com idiomas que não sejam inglês, certifique-se de usar um modelo Whisper suficientemente capaz.

Considerações de Privacidade

Dados de voz trazem considerações de privacidade que texto não traz:

  • Gravações de áudio: verifique se seu provedor de TTS/STT retém áudio. O Hermes processa áudio localmente quando usa modelos locais.
  • Mensagens de voz no Telegram: o Telegram armazena mensagens de voz em seus servidores. O bot as baixa para transcrição, mas os originais permanecem na nuvem do Telegram.
  • Voz no Discord: os dados de voz do Discord passam pela infraestrutura do Discord antes de chegar ao bot.

Se privacidade é uma preocupação principal, transcrição local com Whisper e TTS local (NeuTTS) mantêm todo o processamento de áudio na sua infraestrutura.

O Apelo Para Usuários Não Técnicos

O voice mode é o recurso que torna o Hermes acessível para pessoas que nunca usariam um terminal. Se você configurou um agente Hermes para um familiar, amigo ou dono de pequena empresa, voz no Telegram é a interface que eles vão realmente usar.

Pense na perspectiva deles: não precisam aprender um CLI, não precisam entender configuração de modelo e não precisam digitar. Eles seguram um botão em um app que já usam (Telegram), falam naturalmente e recebem uma resposta falada. Essa é a experiência que preenche a lacuna entre "agente de IA poderoso" e "ferramenta que meus pais usariam."

Configurando o Voice Mode

Se você está rodando o Hermes por conta própria:

  1. Instale suporte a voz: pip install "hermes-agent[voice,messaging]"
  2. Configure TTS no config.yaml (ou use os padrões)
  3. Inicie o gateway: hermes gateway start --detach
  4. Mande um áudio para o seu bot do Telegram

Se você está usando a Hermify, o voice mode funciona assim que o bot do Telegram for conectado. Nenhuma instalação ou configuração adicional é necessária.

Fontes

Lance seu próprio agente Hermes

Traga sua chave de API, conecte o Telegram e tenha um agente de IA que evolui sozinho no ar em 60 segundos.

Começar agora