So richten Sie den Sprachmodus von Hermes Agent ein
Schritt-für-Schritt-Anleitung zur Aktivierung des Sprachmodus von Hermes Agent unter Mac, Linux und Windows mit WSL2. Behandelt Installation, STT-Optionen, TTS-Konfiguration und Fehlerbehebung.

Was Sie vor dem Start benötigen
Der Sprachmodus in Hermes Agent fügt dem Basis-Agenten eine vollständige Sprach-Pipeline hinzu: Mikrofoneingabe, Speech-to-Text-Transkription, die Standard-Argumentationsschleife und Text-to-Speech-Ausgabe. Jede Stufe lässt sich anpassen, aber die Standardeinstellungen funktionieren gut genug, um in weniger als zehn Minuten loszulegen.
Voraussetzungen:
- Eine funktionierende Hermes-Agent-Installation: Führen Sie
hermesaus und stellen Sie sicher, dass der Text-Chat antwortet, bevor Sie den Sprachmodus aktivieren - Ein an Ihren Rechner angeschlossenes Mikrofon
- Mac, Linux oder Windows mit installiertem WSL2
Natives Windows wird nicht unterstützt: Auf dieser Plattform ist WSL2 erforderlich.
Schritt 1 - Das Voice-Extra installieren
pip install "hermes-agent[voice]"
Damit wird Folgendes installiert:
faster-whisper- lokales Speech-to-Text (das Standard-STT-Backend)sounddevice- Mikrofonaufnahme und Audiowiedergabenumpy- Audioverarbeitung
Der Download umfasst je nach vorhandener Python-Umgebung etwa 100-300 MB.
Android/Termux: Das Standard-Voice-Extra zieht Abhängigkeiten nach, die nicht mit Android kompatibel sind. Verwenden Sie stattdessen das Termux-spezifische Extra:
pip install "hermes-agent[termux]"
Schritt 2 - Mikrofonberechtigungen prüfen
Bevor Sie die Sprachfunktion in Hermes aktivieren, vergewissern Sie sich, dass auf Ihr Mikrofon aus der Terminal-Umgebung zugegriffen werden kann.
Mac: Gehen Sie zu Systemeinstellungen > Datenschutz & Sicherheit > Mikrofon. Stellen Sie sicher, dass Ihre Terminal-Anwendung (Terminal, iTerm2, Warp usw.) die Berechtigung hat, auf das Mikrofon zuzugreifen.
Linux:
Führen Sie arecord -l aus, um die Aufnahmegeräte aufzulisten. Falls Ihr Mikrofon nicht erscheint, prüfen Sie, ob PulseAudio oder PipeWire läuft:
pulseaudio --check
# or
pactl info
WSL2 (Windows):
Der Mikrofonzugriff unter WSL2 erfordert das Überbrücken von PulseAudio vom Windows-Host. Der gängigste Ansatz besteht darin, einen PulseAudio-Server unter Windows zu installieren und WSL2 anschließend so zu konfigurieren, dass es sich über die Umgebungsvariable PULSE_SERVER damit verbindet. Dies ist der aufwendigste Schritt für Windows-Nutzer: Sobald die Brücke funktioniert, sind alle weiteren Schritte mit denen unter Linux identisch.
Schritt 3 - Sprachmodus aktivieren
Starten Sie eine Hermes-Sitzung:
hermes
Führen Sie innerhalb der Sitzung Folgendes aus:
/voice on
Sie sehen eine Bestätigungsmeldung. Drücken Sie Strg+B, um die Aufnahme zu starten, sprechen Sie eine kurze Nachricht und drücken Sie dann erneut Strg+B, um zu stoppen (oder warten Sie auf die Stille-Erkennung). Hermes transkribiert Ihre Nachricht und antwortet.

Wenn der Agent korrekt antwortet, funktioniert der Sprachmodus. Fahren Sie mit Schritt 4 fort, um zu konfigurieren, welche STT- und TTS-Anbieter verwendet werden sollen. Falls etwas nicht stimmt, springen Sie zum Abschnitt zur Fehlerbehebung.
Schritt 4 - Speech-to-Text konfigurieren
Der Standard-STT-Anbieter ist faster-whisper, das lokal auf Ihrem Rechner läuft. Kein API-Schlüssel erforderlich, es werden keine Audiodaten an einen externen Dienst gesendet.
Das Standard-Whisper-Modell ist base, das schnell und für klar gesprochenes Englisch genau genug ist. Für eine bessere Genauigkeit bei Akzenten oder nicht-englischen Sprachen wechseln Sie zu einem größeren Modell:
# ~/.hermes/config.yaml
stt:
provider: local
model: small # options: tiny, base, small, medium, large-v3
Größere Modelle tauschen Geschwindigkeit gegen Genauigkeit ein. Auf einer modernen CPU fügt small pro kurzem Satz etwa 1-2 Sekunden Transkriptionslatenz hinzu. Auf einer GPU ist der Unterschied vernachlässigbar.
Cloud-STT (schneller, keine lokale Rechenleistung):
stt:
provider: groq # or openai
Legen Sie den Schlüssel in ~/.hermes/.env fest:
GROQ_API_KEY=your_groq_key
# or
VOICE_TOOLS_OPENAI_KEY=your_openai_key
Die Whisper-Inferenz von Groq ist schnell, und das kostenlose Kontingent bewältigt eine beträchtliche Nutzung. Für kurze Sprachnachrichten, etwa zur Aufgabenerfassung oder für schnelle Abfragen, antwortet Cloud-STT mit Groq oft schneller als die lokale Inferenz auf einer CPU.
Schritt 5 - Text-to-Speech konfigurieren
Der Standard-TTS-Anbieter ist Edge TTS, das keinen API-Schlüssel benötigt und natürlich klingende Ausgaben erzeugt:
tts:
provider: edge
Für die meisten persönlichen Anwendungsfälle ist dies ausreichend. Eine vollständige Aufschlüsselung aller zehn unterstützten TTS-Anbieter und wann Sie welchen wählen sollten, finden Sie im Hermes Agent TTS providers guide.
Für Telegram-Nutzer: Einige Anbieter, darunter NeuTTS, geben WAV-Dateien aus, die für Telegram-Sprachblasen in Opus konvertiert werden müssen. Installieren Sie ffmpeg, um die automatische Konvertierung zu aktivieren:
# Mac
brew install ffmpeg
# Linux
sudo apt install ffmpeg
Schritt 6 - Sprachmodus zum Standard machen
Um zu vermeiden, dass Sie zu Beginn jeder Sitzung /voice on ausführen müssen, fügen Sie Folgendes zu ~/.hermes/config.yaml hinzu:
voice_mode: true
Der Agent startet ab diesem Zeitpunkt automatisch mit aktivierter Sprachfunktion.
Schritt 7 - Auf Telegram testen (optional)
Falls Sie einen Telegram-Bot konfiguriert haben, senden Sie eine Sprachnachricht an Ihren Bot und vergewissern Sie sich, dass er sowohl mit Text als auch mit einer Sprachblase antwortet. Fehlt die Sprachblase, prüfen Sie, ob ffmpeg installiert ist und Ihr TTS-Anbieter korrekt konfiguriert ist.
Fehlerbehebung
Keine Audioausgabe - der Agent antwortet nur mit Text
Vergewissern Sie sich, dass tts.provider in der config.yaml festgelegt ist und dass Sie /voice on in der aktuellen Sitzung ausgeführt haben. Alternativ legen Sie voice_mode: true für die automatische Aktivierung fest.
Strg+B bewirkt nichts / Mikrofon wird nicht erkannt
Prüfen Sie die Mikrofonberechtigungen (Mac: Systemeinstellungen > Datenschutz > Mikrofon). Führen Sie unter Linux arecord -l aus und vergewissern Sie sich, dass Ihr Gerät erscheint. Stellen Sie unter WSL2 sicher, dass die PulseAudio-Brücke zum Windows-Host aktiv ist.
Die Transkription ist ungenau oder lässt Wörter aus
Wechseln Sie in der config.yaml von base zu small oder medium. Hintergrundgeräusche verschlechtern die Transkription erheblich: Ein Headset oder ein Richtmikrofon macht in der Praxis einen großen Unterschied.
Telegram-Sprachblasen fehlen oder sind stumm
Hermes sendet Opus-codierte Audiodaten an Telegram. Wenn Sie NeuTTS verwenden und ffmpeg nicht installiert ist, schlägt die WAV-zu-Opus-Konvertierung stillschweigend fehl. Installieren Sie ffmpeg und starten Sie das Gateway neu.
Die Antwortlatenz ist zu hoch
Für die schnellste Einrichtung: Verwenden Sie Cloud-STT (Groq) für die Transkription und Edge TTS für die Ausgabe. Die Groq-Transkription fügt bei kurzen Nachrichten weniger als eine Sekunde Latenz hinzu. Die Edge-TTS-Synthese ist schnell und benötigt keine lokale Rechenleistung.

Die Latenz bei jeder Stufe verstehen
Zu wissen, wo Zeit verloren geht, hilft Ihnen, für Ihren Anwendungsfall zu optimieren:
| Stufe | Lokal (typisch) | Cloud (typisch) |
|---|---|---|
| STT-Transkription | 1-4s (Whisper base/small) | 0,5-1s (Groq) |
| Agenten-Argumentation | 1-3s | 1-3s |
| TTS-Synthese | 0,5-2s | 0,3-1s |
| Gesamt | 2,5-9s | 1,8-5s |
Für einen persönlichen Assistenten wirkt alles unter 5 Sekunden natürlich. Für Echtzeit-Sprachkanäle in Discord sollten Sie insgesamt unter 3 Sekunden anstreben: Verwenden Sie Cloud-STT und einen schnellen TTS-Anbieter.
Die Einrichtung komplett überspringen
Hermes selbst zu hosten und die Sprachkonfiguration zu verwalten, ist mit dieser Anleitung durchaus machbar, aber auf nicht jeder Plattform trivial, insbesondere unter Windows. Wenn Sie die Sprachfunktion lieber sofort einsatzbereit haben möchten, erledigt Hermify all das automatisch. Ihr Agent läuft in einem isolierten Container mit vorkonfiguriertem Edge TTS, und Telegram wird mit zwei Tipps über das Dashboard verbunden. Keine Konfigurationsdateien, kein zu verwaltendes Gateway.
Quellen
Betreiben Sie Ihren eigenen Hermes Agent
Bringen Sie Ihren API-Schlüssel mit, verbinden Sie Telegram und erhalten Sie in 60 Sekunden einen selbstlernenden KI-Agenten.
Loslegen