So richten Sie den Sprachmodus von Hermes Agent ein

Was Sie vor dem Start benötigen

Der Sprachmodus in Hermes Agent fügt dem Basis-Agenten eine vollständige Sprach-Pipeline hinzu: Mikrofoneingabe, Speech-to-Text-Transkription, die Standard-Argumentationsschleife und Text-to-Speech-Ausgabe. Jede Stufe lässt sich anpassen, aber die Standardeinstellungen funktionieren gut genug, um in weniger als zehn Minuten loszulegen.

Voraussetzungen:

Eine funktionierende Hermes-Agent-Installation: Führen Sie hermes aus und stellen Sie sicher, dass der Text-Chat antwortet, bevor Sie den Sprachmodus aktivieren
Ein an Ihren Rechner angeschlossenes Mikrofon
Mac, Linux oder Windows mit installiertem WSL2

Natives Windows wird nicht unterstützt: Auf dieser Plattform ist WSL2 erforderlich.

Schritt 1 - Das Voice-Extra installieren

pip install "hermes-agent[voice]"

Damit wird Folgendes installiert:

faster-whisper - lokales Speech-to-Text (das Standard-STT-Backend)
sounddevice - Mikrofonaufnahme und Audiowiedergabe
numpy - Audioverarbeitung

Der Download umfasst je nach vorhandener Python-Umgebung etwa 100-300 MB.

Android/Termux: Das Standard-Voice-Extra zieht Abhängigkeiten nach, die nicht mit Android kompatibel sind. Verwenden Sie stattdessen das Termux-spezifische Extra:

pip install "hermes-agent[termux]"

Schritt 2 - Mikrofonberechtigungen prüfen

Bevor Sie die Sprachfunktion in Hermes aktivieren, vergewissern Sie sich, dass auf Ihr Mikrofon aus der Terminal-Umgebung zugegriffen werden kann.

Mac: Gehen Sie zu Systemeinstellungen > Datenschutz & Sicherheit > Mikrofon. Stellen Sie sicher, dass Ihre Terminal-Anwendung (Terminal, iTerm2, Warp usw.) die Berechtigung hat, auf das Mikrofon zuzugreifen.

Linux: Führen Sie arecord -l aus, um die Aufnahmegeräte aufzulisten. Falls Ihr Mikrofon nicht erscheint, prüfen Sie, ob PulseAudio oder PipeWire läuft:

pulseaudio --check
# or
pactl info

WSL2 (Windows): Der Mikrofonzugriff unter WSL2 erfordert das Überbrücken von PulseAudio vom Windows-Host. Der gängigste Ansatz besteht darin, einen PulseAudio-Server unter Windows zu installieren und WSL2 anschließend so zu konfigurieren, dass es sich über die Umgebungsvariable PULSE_SERVER damit verbindet. Dies ist der aufwendigste Schritt für Windows-Nutzer: Sobald die Brücke funktioniert, sind alle weiteren Schritte mit denen unter Linux identisch.

Schritt 3 - Sprachmodus aktivieren

Starten Sie eine Hermes-Sitzung:

hermes

Führen Sie innerhalb der Sitzung Folgendes aus:

/voice on

Sie sehen eine Bestätigungsmeldung. Drücken Sie Strg+B, um die Aufnahme zu starten, sprechen Sie eine kurze Nachricht und drücken Sie dann erneut Strg+B, um zu stoppen (oder warten Sie auf die Stille-Erkennung). Hermes transkribiert Ihre Nachricht und antwortet.

Ein Terminal mit einer Hermes-Agent-CLI-Sitzung bei aktivem Sprachmodus, einer Aufnahmeanzeige unten und einer transkribierten Antwort darüber

Wenn der Agent korrekt antwortet, funktioniert der Sprachmodus. Fahren Sie mit Schritt 4 fort, um zu konfigurieren, welche STT- und TTS-Anbieter verwendet werden sollen. Falls etwas nicht stimmt, springen Sie zum Abschnitt zur Fehlerbehebung.

Schritt 4 - Speech-to-Text konfigurieren

Der Standard-STT-Anbieter ist faster-whisper, das lokal auf Ihrem Rechner läuft. Kein API-Schlüssel erforderlich, es werden keine Audiodaten an einen externen Dienst gesendet.

Das Standard-Whisper-Modell ist base, das schnell und für klar gesprochenes Englisch genau genug ist. Für eine bessere Genauigkeit bei Akzenten oder nicht-englischen Sprachen wechseln Sie zu einem größeren Modell:

# ~/.hermes/config.yaml
stt:
  provider: local
  model: small   # options: tiny, base, small, medium, large-v3

Größere Modelle tauschen Geschwindigkeit gegen Genauigkeit ein. Auf einer modernen CPU fügt small pro kurzem Satz etwa 1-2 Sekunden Transkriptionslatenz hinzu. Auf einer GPU ist der Unterschied vernachlässigbar.

Cloud-STT (schneller, keine lokale Rechenleistung):

stt:
  provider: groq   # or openai

Legen Sie den Schlüssel in ~/.hermes/.env fest:

GROQ_API_KEY=your_groq_key
# or
VOICE_TOOLS_OPENAI_KEY=your_openai_key

Die Whisper-Inferenz von Groq ist schnell, und das kostenlose Kontingent bewältigt eine beträchtliche Nutzung. Für kurze Sprachnachrichten, etwa zur Aufgabenerfassung oder für schnelle Abfragen, antwortet Cloud-STT mit Groq oft schneller als die lokale Inferenz auf einer CPU.

Schritt 5 - Text-to-Speech konfigurieren

Der Standard-TTS-Anbieter ist Edge TTS, das keinen API-Schlüssel benötigt und natürlich klingende Ausgaben erzeugt:

tts:
  provider: edge

Für die meisten persönlichen Anwendungsfälle ist dies ausreichend. Eine vollständige Aufschlüsselung aller zehn unterstützten TTS-Anbieter und wann Sie welchen wählen sollten, finden Sie im Hermes Agent TTS providers guide.

Für Telegram-Nutzer: Einige Anbieter, darunter NeuTTS, geben WAV-Dateien aus, die für Telegram-Sprachblasen in Opus konvertiert werden müssen. Installieren Sie ffmpeg, um die automatische Konvertierung zu aktivieren:

# Mac
brew install ffmpeg

# Linux
sudo apt install ffmpeg

Schritt 6 - Sprachmodus zum Standard machen

Um zu vermeiden, dass Sie zu Beginn jeder Sitzung /voice on ausführen müssen, fügen Sie Folgendes zu ~/.hermes/config.yaml hinzu:

voice_mode: true

Der Agent startet ab diesem Zeitpunkt automatisch mit aktivierter Sprachfunktion.

Schritt 7 - Auf Telegram testen (optional)

Falls Sie einen Telegram-Bot konfiguriert haben, senden Sie eine Sprachnachricht an Ihren Bot und vergewissern Sie sich, dass er sowohl mit Text als auch mit einer Sprachblase antwortet. Fehlt die Sprachblase, prüfen Sie, ob ffmpeg installiert ist und Ihr TTS-Anbieter korrekt konfiguriert ist.

Fehlerbehebung

Keine Audioausgabe - der Agent antwortet nur mit Text

Vergewissern Sie sich, dass tts.provider in der config.yaml festgelegt ist und dass Sie /voice on in der aktuellen Sitzung ausgeführt haben. Alternativ legen Sie voice_mode: true für die automatische Aktivierung fest.

Strg+B bewirkt nichts / Mikrofon wird nicht erkannt

Prüfen Sie die Mikrofonberechtigungen (Mac: Systemeinstellungen > Datenschutz > Mikrofon). Führen Sie unter Linux arecord -l aus und vergewissern Sie sich, dass Ihr Gerät erscheint. Stellen Sie unter WSL2 sicher, dass die PulseAudio-Brücke zum Windows-Host aktiv ist.

Die Transkription ist ungenau oder lässt Wörter aus

Wechseln Sie in der config.yaml von base zu small oder medium. Hintergrundgeräusche verschlechtern die Transkription erheblich: Ein Headset oder ein Richtmikrofon macht in der Praxis einen großen Unterschied.

Telegram-Sprachblasen fehlen oder sind stumm

Hermes sendet Opus-codierte Audiodaten an Telegram. Wenn Sie NeuTTS verwenden und ffmpeg nicht installiert ist, schlägt die WAV-zu-Opus-Konvertierung stillschweigend fehl. Installieren Sie ffmpeg und starten Sie das Gateway neu.

Die Antwortlatenz ist zu hoch

Für die schnellste Einrichtung: Verwenden Sie Cloud-STT (Groq) für die Transkription und Edge TTS für die Ausgabe. Die Groq-Transkription fügt bei kurzen Nachrichten weniger als eine Sekunde Latenz hinzu. Die Edge-TTS-Synthese ist schnell und benötigt keine lokale Rechenleistung.

Ein Flussdiagramm zur Fehlerbehebung der Hermes-Sprach-Pipeline, das die Stufen STT, Argumentation und TTS mit an jeder Stufe markierten häufigen Fehlerquellen zeigt

Die Latenz bei jeder Stufe verstehen

Zu wissen, wo Zeit verloren geht, hilft Ihnen, für Ihren Anwendungsfall zu optimieren:

Stufe	Lokal (typisch)	Cloud (typisch)
STT-Transkription	1-4s (Whisper base/small)	0,5-1s (Groq)
Agenten-Argumentation	1-3s	1-3s
TTS-Synthese	0,5-2s	0,3-1s
Gesamt	2,5-9s	1,8-5s

Für einen persönlichen Assistenten wirkt alles unter 5 Sekunden natürlich. Für Echtzeit-Sprachkanäle in Discord sollten Sie insgesamt unter 3 Sekunden anstreben: Verwenden Sie Cloud-STT und einen schnellen TTS-Anbieter.

Die Einrichtung komplett überspringen

Hermes selbst zu hosten und die Sprachkonfiguration zu verwalten, ist mit dieser Anleitung durchaus machbar, aber auf nicht jeder Plattform trivial, insbesondere unter Windows. Wenn Sie die Sprachfunktion lieber sofort einsatzbereit haben möchten, erledigt Hermify all das automatisch. Ihr Agent läuft in einem isolierten Container mit vorkonfiguriertem Edge TTS, und Telegram wird mit zwei Tipps über das Dashboard verbunden. Keine Konfigurationsdateien, kein zu verwaltendes Gateway.