Mode voix de Hermes Agent : parlez à votre IA au lieu de taper
Guide complet des fonctionnalités vocales de Hermes Agent : saisie au microphone dans la CLI, réponses vocales sur Telegram et Discord, et conversations vocales en direct dans les salons Discord.

Taper n'est pas la seule façon d'utiliser l'IA
L'interface dominante pour les outils IA en 2026 reste le texte. Vous tapez un message, vous lisez une réponse. Cela fonctionne bien pour de nombreuses tâches. Mais il y a des situations où la voix est simplement meilleure :
- Vous marchez et souhaitez réfléchir à voix haute à un problème
- Vous cuisinez et voulez demander un équivalent pour une recette
- Vous conduisez et voulez que votre briefing matinal soit lu à haute voix
- Vous êtes dans un salon vocal Discord et souhaitez que l'agent participe à la conversation
Hermes Agent intègre le mode voix sur trois surfaces : la CLI, Telegram et Discord. Ce n'est pas une surcouche text-to-speech ajoutée après coup. C'est une interaction vocale complète : vous parlez, l'agent écoute, transcrit, traite et répond avec de l'audio parlé.
Voici comment fonctionne chaque fonctionnalité vocale, ce qu'il faut pour la configurer, et à quoi elle est vraiment utile.
Vue d'ensemble du mode voix
Hermes supporte trois patterns d'interaction vocale distincts :
| Fonctionnalité | Où elle fonctionne | Ce qu'elle fait | |---|---|---| | Voix interactive | CLI | Appuyez sur Ctrl+B pour enregistrer. L'agent transcrit, traite et affiche la réponse. | | Réponse vocale automatique | Telegram, Discord | L'agent envoie de l'audio parlé avec les réponses texte. Envoyez un mémo vocal, recevez une réponse vocale. | | Canal vocal | Discord | Le bot rejoint un canal vocal, écoute les utilisateurs parler, et répond vocalement en temps réel. |
Chaque mode répond à un cas d'usage différent. Détaillons-les.
Mode voix CLI : parler dans le terminal
La fonctionnalité vocale la plus simple. Dans une session CLI Hermes, appuyez sur Ctrl+B pour commencer l'enregistrement. Parlez votre message. Appuyez à nouveau sur Ctrl+B (ou attendez la détection du silence) pour arrêter. Hermes transcrit votre discours, le traite comme un message normal et répond.
Ce dont vous avez besoin
pip install "hermes-agent[voice]"
Cela installe sounddevice et numpy pour la capture au microphone et le traitement audio. Vous avez également besoin d'un microphone connecté à votre machine.
Quand le mode voix CLI est utile
- Brainstorming mains libres : réfléchissez à un problème en faisant les cent pas dans votre bureau. Hermes suit.
- Accessibilité : si taper est difficile ou lent, la saisie vocale supprime la barrière.
- Dictée longue : décrivez verbalement une tâche complexe au lieu de taper un paragraphe d'instructions.
Le mode voix CLI est la fonctionnalité vocale la plus « orientée développeur ». Elle est utile, mais la vraie magie se passe sur les plateformes de messagerie.
Voix Telegram : envoyez un mémo vocal, recevez une réponse vocale
C'est là que le mode voix devient vraiment utile pour les utilisateurs non techniques. Sur Telegram :
- Vous envoyez un mémo vocal (maintenez le bouton micro, parlez, relâchez)
- Hermes transcrit votre message
- Hermes le traite normalement
- Hermes renvoie un message audio parlé accompagné de la réponse textuelle
Vous pouvez avoir une conversation entièrement vocale avec votre agent sur Telegram. Aucune saisie requise.
Ce dont vous avez besoin
pip install "hermes-agent[messaging]"
Plus la configuration Telegram standard (token bot depuis BotFather, configuré dans config.yaml).
Pour une qualité vocale supérieure, vous pouvez configurer des fournisseurs TTS premium comme ElevenLabs :
pip install "hermes-agent[tts-premium]"
L'expérience vocale Telegram en pratique
Imaginez ce workflow :
- Vous marchez vers le travail. Vous maintenez le bouton micro dans Telegram et dites : « Qu'est-ce que j'ai à l'agenda aujourd'hui ? Et rappelle-moi d'appeler le dentiste à 15h. »
- Hermes consulte votre contexte, définit le rappel, et renvoie un message vocal : « Vous avez deux réunions ce matin, un standup à 10h et une revue produit à 11h30. J'ai défini un rappel pour l'appel chez le dentiste à 15h. »
L'interaction entière est vocale. Vous n'ouvrez jamais un clavier.
Configuration de la réponse vocale automatique
Par défaut, Hermes envoie à la fois des réponses texte et audio sur Telegram quand le mode voix est activé. Vous pouvez configurer ce comportement :
- Toujours vocal : chaque réponse inclut de l'audio parlé
- Répondre en miroir : les messages vocaux reçoivent des réponses vocales, les messages texte reçoivent des réponses texte
- Texte seulement : désactiver la sortie vocale tout en conservant la saisie vocale
Le mode « répondre en miroir » est le plus naturel. Il correspond automatiquement au style de communication de l'utilisateur.
Canal vocal Discord : conversation en direct
La fonctionnalité vocale la plus avancée. Hermes peut rejoindre un canal vocal Discord, écouter tout le monde parler, et répondre avec de l'audio parlé en temps réel.
L'agent devient ainsi un participant vocal dans les conversations de groupe. Plusieurs utilisateurs peuvent poser des questions, et l'agent répond à chacun.
Ce dont vous avez besoin
pip install "hermes-agent[messaging]"
La voix Discord nécessite discord.py[voice], inclus dans l'extra messaging. Vous avez également besoin du bot Discord configuré avec des permissions vocales dans votre serveur.
Quand la voix Discord est utile
- Brainstorming d'équipe : l'agent participe à une discussion vocale, offrant des suggestions et répondant aux questions en temps réel
- Groupes d'étude : demandez à l'agent d'expliquer des concepts pendant une discussion en direct
- Serveurs de jeux et de communautés : l'agent peut être un assistant vocal dans les canaux communautaires
- Accessibilité : les utilisateurs qui ne peuvent pas taper peuvent interagir avec l'agent par la voix
Options TTS
Hermes supporte plusieurs backends de synthèse vocale :
| Fournisseur | Qualité | Coût | Notes | |---|---|---|---| | TTS système | Basique | Gratuit | Par défaut, fonctionne partout | | NeuTTS (local) | Bon | Gratuit | S'exécute en local, nécessite une configuration | | ElevenLabs | Excellent | Payant | Qualité premium, son le plus naturel |
Pour un usage personnel, le TTS système ou NeuTTS est suffisant. Si vous souhaitez que l'agent sonne véritablement humain, notamment pour des cas d'usage orientés clients ou de création de contenu, ElevenLabs vaut le coût.
Pour configurer ElevenLabs, ajoutez votre clé API dans ~/.hermes/.env :
ELEVENLABS_API_KEY=your_key_here
Et installez le package TTS premium :
pip install "hermes-agent[tts-premium]"
Langues de saisie vocale
Hermes utilise Whisper pour la reconnaissance vocale, qui supporte 99 langues. Vous pouvez parler en espagnol, français, allemand, mandarin ou la plupart des autres langues, et l'agent transcrira et répondra de façon appropriée.
La qualité de la transcription dépend de la configuration du modèle Whisper. Pour de meilleurs résultats avec les langues non-anglaises, assurez-vous d'utiliser un modèle Whisper suffisamment performant.
Considérations sur la confidentialité
Les données vocales introduisent des considérations de confidentialité que le texte n'a pas :
- Enregistrements audio : vérifiez si votre fournisseur TTS/STT conserve l'audio. Hermes lui-même traite l'audio en local quand on utilise des modèles locaux.
- Messages vocaux sur Telegram : Telegram stocke les messages vocaux sur ses serveurs. Le bot les télécharge pour la transcription, mais les originaux restent dans le cloud Telegram.
- Voix Discord : les données vocales Discord passent par l'infrastructure de Discord avant d'atteindre le bot.
Si la confidentialité est une préoccupation principale, la transcription Whisper locale et le TTS local (NeuTTS) permettent de garder tout le traitement audio sur votre infrastructure.
L'attrait pour les non-développeurs
Le mode voix est la fonctionnalité qui rend Hermes accessible aux personnes qui n'utiliseraient jamais un terminal. Si vous configurez un agent Hermes pour un proche, un ami ou un propriétaire de petite entreprise, la voix sur Telegram est l'interface qu'ils utiliseront réellement.
Pensez-y de leur point de vue : ils n'ont pas besoin d'apprendre une CLI, ils n'ont pas besoin de comprendre la configuration des modèles, et ils n'ont pas besoin de taper. Ils maintiennent un bouton dans une application qu'ils utilisent déjà (Telegram), parlent naturellement, et reçoivent une réponse parlée. C'est l'expérience qui comble le fossé entre « agent IA puissant » et « outil que mes parents utiliseraient ».
Configurer le mode voix
Si vous faites tourner Hermes vous-même :
- Installez le support vocal :
pip install "hermes-agent[voice,messaging]" - Configurez TTS dans
config.yaml(ou utilisez les valeurs par défaut) - Démarrez la passerelle :
hermes gateway start --detach - Envoyez un mémo vocal à votre bot Telegram
Si vous utilisez Hermify, le mode voix fonctionne immédiatement une fois votre bot Telegram connecté. Aucune installation ou configuration supplémentaire nécessaire.
Sources
Lancez votre propre agent Hermes
Apportez votre clé API, connectez Telegram et obtenez un agent IA auto-améliorant opérationnel en 60 secondes.
Commencer