Mode voix de Hermes Agent : parlez à votre IA au lieu de taper

Taper n'est pas la seule façon d'utiliser l'IA

L'interface dominante pour les outils IA en 2026 reste le texte. Vous tapez un message, vous lisez une réponse. Cela fonctionne bien pour de nombreuses tâches. Mais il y a des situations où la voix est simplement meilleure :

Vous marchez et souhaitez réfléchir à voix haute à un problème
Vous cuisinez et voulez demander un équivalent pour une recette
Vous conduisez et voulez que votre briefing matinal soit lu à haute voix
Vous êtes dans un salon vocal Discord et souhaitez que l'agent participe à la conversation

Hermes Agent intègre le mode voix sur trois surfaces : la CLI, Telegram et Discord. Ce n'est pas une surcouche text-to-speech ajoutée après coup. C'est une interaction vocale complète : vous parlez, l'agent écoute, transcrit, traite et répond avec de l'audio parlé.

Voici comment fonctionne chaque fonctionnalité vocale, ce qu'il faut pour la configurer, et à quoi elle est vraiment utile.

Vue d'ensemble du mode voix

Hermes supporte trois patterns d'interaction vocale distincts :

Fonctionnalité	Où elle fonctionne	Ce qu'elle fait
Voix interactive	CLI	Appuyez sur Ctrl+B pour enregistrer. L'agent transcrit, traite et affiche la réponse.
Réponse vocale automatique	Telegram, Discord	L'agent envoie de l'audio parlé avec les réponses texte. Envoyez un mémo vocal, recevez une réponse vocale.
Canal vocal	Discord	Le bot rejoint un canal vocal, écoute les utilisateurs parler, et répond vocalement en temps réel.

Chaque mode répond à un cas d'usage différent. Détaillons-les.

Mode voix CLI : parler dans le terminal

La fonctionnalité vocale la plus simple. Dans une session CLI Hermes, appuyez sur Ctrl+B pour commencer l'enregistrement. Parlez votre message. Appuyez à nouveau sur Ctrl+B (ou attendez la détection du silence) pour arrêter. Hermes transcrit votre discours, le traite comme un message normal et répond.

Ce dont vous avez besoin

pip install "hermes-agent[voice]"

Cela installe sounddevice et numpy pour la capture au microphone et le traitement audio. Vous avez également besoin d'un microphone connecté à votre machine.

Quand le mode voix CLI est utile

Brainstorming mains libres : réfléchissez à un problème en faisant les cent pas dans votre bureau. Hermes suit.
Accessibilité : si taper est difficile ou lent, la saisie vocale supprime la barrière.
Dictée longue : décrivez verbalement une tâche complexe au lieu de taper un paragraphe d'instructions.

Le mode voix CLI est la fonctionnalité vocale la plus « orientée développeur ». Elle est utile, mais la vraie magie se passe sur les plateformes de messagerie.

Voix Telegram : envoyez un mémo vocal, recevez une réponse vocale

C'est là que le mode voix devient vraiment utile pour les utilisateurs non techniques. Sur Telegram :

Vous envoyez un mémo vocal (maintenez le bouton micro, parlez, relâchez)
Hermes transcrit votre message
Hermes le traite normalement
Hermes renvoie un message audio parlé accompagné de la réponse textuelle

Vous pouvez avoir une conversation entièrement vocale avec votre agent sur Telegram. Aucune saisie requise.

Ce dont vous avez besoin

pip install "hermes-agent[messaging]"

Plus la configuration Telegram standard (token bot depuis BotFather, configuré dans config.yaml).

Pour une qualité vocale supérieure, vous pouvez configurer des fournisseurs TTS premium comme ElevenLabs :

pip install "hermes-agent[tts-premium]"

L'expérience vocale Telegram en pratique

Imaginez ce workflow :

Vous marchez vers le travail. Vous maintenez le bouton micro dans Telegram et dites : « Qu'est-ce que j'ai à l'agenda aujourd'hui ? Et rappelle-moi d'appeler le dentiste à 15h. »
Hermes consulte votre contexte, définit le rappel, et renvoie un message vocal : « Vous avez deux réunions ce matin, un standup à 10h et une revue produit à 11h30. J'ai défini un rappel pour l'appel chez le dentiste à 15h. »

L'interaction entière est vocale. Vous n'ouvrez jamais un clavier.

Configuration de la réponse vocale automatique

Par défaut, Hermes envoie à la fois des réponses texte et audio sur Telegram quand le mode voix est activé. Vous pouvez configurer ce comportement :

Toujours vocal : chaque réponse inclut de l'audio parlé
Répondre en miroir : les messages vocaux reçoivent des réponses vocales, les messages texte reçoivent des réponses texte
Texte seulement : désactiver la sortie vocale tout en conservant la saisie vocale

Le mode « répondre en miroir » est le plus naturel. Il correspond automatiquement au style de communication de l'utilisateur.

Canal vocal Discord : conversation en direct

La fonctionnalité vocale la plus avancée. Hermes peut rejoindre un canal vocal Discord, écouter tout le monde parler, et répondre avec de l'audio parlé en temps réel.

L'agent devient ainsi un participant vocal dans les conversations de groupe. Plusieurs utilisateurs peuvent poser des questions, et l'agent répond à chacun.

Ce dont vous avez besoin

pip install "hermes-agent[messaging]"

La voix Discord nécessite discord.py[voice], inclus dans l'extra messaging. Vous avez également besoin du bot Discord configuré avec des permissions vocales dans votre serveur.

Quand la voix Discord est utile

Brainstorming d'équipe : l'agent participe à une discussion vocale, offrant des suggestions et répondant aux questions en temps réel
Groupes d'étude : demandez à l'agent d'expliquer des concepts pendant une discussion en direct
Serveurs de jeux et de communautés : l'agent peut être un assistant vocal dans les canaux communautaires
Accessibilité : les utilisateurs qui ne peuvent pas taper peuvent interagir avec l'agent par la voix

Options TTS

Hermes supporte plusieurs backends de synthèse vocale :

Fournisseur	Qualité	Coût	Notes
TTS système	Basique	Gratuit	Par défaut, fonctionne partout
NeuTTS (local)	Bon	Gratuit	S'exécute en local, nécessite une configuration
ElevenLabs	Excellent	Payant	Qualité premium, son le plus naturel

Pour un usage personnel, le TTS système ou NeuTTS est suffisant. Si vous souhaitez que l'agent sonne véritablement humain, notamment pour des cas d'usage orientés clients ou de création de contenu, ElevenLabs vaut le coût.

Pour configurer ElevenLabs, ajoutez votre clé API dans ~/.hermes/.env :

ELEVENLABS_API_KEY=your_key_here

Et installez le package TTS premium :

pip install "hermes-agent[tts-premium]"

Langues de saisie vocale

Hermes utilise Whisper pour la reconnaissance vocale, qui supporte 99 langues. Vous pouvez parler en espagnol, français, allemand, mandarin ou la plupart des autres langues, et l'agent transcrira et répondra de façon appropriée.

La qualité de la transcription dépend de la configuration du modèle Whisper. Pour de meilleurs résultats avec les langues non-anglaises, assurez-vous d'utiliser un modèle Whisper suffisamment performant.

Considérations sur la confidentialité

Les données vocales introduisent des considérations de confidentialité que le texte n'a pas :

Enregistrements audio : vérifiez si votre fournisseur TTS/STT conserve l'audio. Hermes lui-même traite l'audio en local quand on utilise des modèles locaux.
Messages vocaux sur Telegram : Telegram stocke les messages vocaux sur ses serveurs. Le bot les télécharge pour la transcription, mais les originaux restent dans le cloud Telegram.
Voix Discord : les données vocales Discord passent par l'infrastructure de Discord avant d'atteindre le bot.

Si la confidentialité est une préoccupation principale, la transcription Whisper locale et le TTS local (NeuTTS) permettent de garder tout le traitement audio sur votre infrastructure.

L'attrait pour les non-développeurs

Le mode voix est la fonctionnalité qui rend Hermes accessible aux personnes qui n'utiliseraient jamais un terminal. Si vous configurez un agent Hermes pour un proche, un ami ou un propriétaire de petite entreprise, la voix sur Telegram est l'interface qu'ils utiliseront réellement.

Pensez-y de leur point de vue : ils n'ont pas besoin d'apprendre une CLI, ils n'ont pas besoin de comprendre la configuration des modèles, et ils n'ont pas besoin de taper. Ils maintiennent un bouton dans une application qu'ils utilisent déjà (Telegram), parlent naturellement, et reçoivent une réponse parlée. C'est l'expérience qui comble le fossé entre « agent IA puissant » et « outil que mes parents utiliseraient ».

Configurer le mode voix

Si vous faites tourner Hermes vous-même :

Installez le support vocal : pip install "hermes-agent[voice,messaging]"
Configurez TTS dans config.yaml (ou utilisez les valeurs par défaut)
Démarrez la passerelle : hermes gateway start --detach
Envoyez un mémo vocal à votre bot Telegram

Si vous utilisez Hermify, le mode voix fonctionne immédiatement une fois votre bot Telegram connecté. Aucune installation ou configuration supplémentaire nécessaire.

Mode voix de Hermes Agent : parlez à votre IA au lieu de taper

Taper n'est pas la seule façon d'utiliser l'IA

Vue d'ensemble du mode voix

Mode voix CLI : parler dans le terminal

Ce dont vous avez besoin

Quand le mode voix CLI est utile

Voix Telegram : envoyez un mémo vocal, recevez une réponse vocale

Ce dont vous avez besoin

L'expérience vocale Telegram en pratique

Configuration de la réponse vocale automatique

Canal vocal Discord : conversation en direct

Ce dont vous avez besoin

Quand la voix Discord est utile

Options TTS

Langues de saisie vocale

Considérations sur la confidentialité

L'attrait pour les non-développeurs

Configurer le mode voix

Sources

Lancez votre propre agent Hermes