Zurück zum Blog
HermesVoiceTelegramDiscordTTSAI Agents

Hermes Agent Sprachmodus: Sprechen Sie mit Ihrer KI, statt zu tippen

Ein vollständiger Leitfaden zu den Sprachfunktionen von Hermes Agent: Mikrofoneingabe in der CLI, gesprochene Antworten auf Telegram und Discord sowie Live-Sprachgespräche in Discord-Sprachkanälen.

Von Hermify Team||6 Min. Lesezeit
Ein Mikrofon mit grünen Schallwellen, das von Chat-Sprechblasen-Symbolen umgeben ist und Sprachinteraktionen über Telegram, Discord und CLI darstellt

Tippen ist nicht die einzige Möglichkeit, KI zu nutzen

Die vorherrschende Schnittstelle für KI-Tools ist im Jahr 2026 noch immer der Text. Sie tippen eine Nachricht, Sie lesen eine Antwort. Für viele Aufgaben funktioniert das hervorragend. Doch es gibt Situationen, in denen Sprache schlicht besser ist:

  • Sie gehen spazieren und möchten ein Problem laut durchdenken
  • Sie kochen und möchten nach einer Zutatenalternative fragen
  • Sie fahren Auto und möchten sich Ihr morgendliches Briefing vorlesen lassen
  • Sie sind in einem Discord-Sprachkanal und möchten, dass sich der Agent am Gespräch beteiligt

Hermes Agent verfügt über einen integrierten Sprachmodus auf drei Oberflächen: der CLI, Telegram und Discord. Dabei handelt es sich nicht um einen aufgesetzten Text-to-Speech-Wrapper. Es ist vollständige Sprachinteraktion: Sie sprechen, der Agent hört zu, transkribiert, verarbeitet und antwortet mit gesprochenem Audio.

So funktioniert jede Sprachfunktion, was für die Einrichtung nötig ist und wofür sie tatsächlich nützlich ist.

Überblick über den Sprachmodus

Hermes unterstützt drei verschiedene Muster der Sprachinteraktion:

Funktion Wo sie funktioniert Was sie macht
Interaktive Sprache CLI Drücken Sie Strg+B, um aufzunehmen. Der Agent transkribiert, verarbeitet und zeigt die Antwort an.
Automatische Sprachantwort Telegram, Discord Der Agent sendet gesprochenes Audio zusammen mit Textantworten. Senden Sie eine Sprachnotiz, erhalten Sie eine Sprachantwort.
Sprachkanal Discord Der Bot tritt einem Sprachkanal bei, hört sprechenden Nutzern zu und spricht Antworten in Echtzeit zurück.

Jeder Modus dient einem anderen Anwendungsfall. Schlüsseln wir sie auf.

CLI-Sprachmodus: Im Terminal sprechen

Die einfachste Sprachfunktion. Drücken Sie innerhalb einer Hermes-CLI-Sitzung Strg+B, um die Aufnahme zu starten. Sprechen Sie Ihre Nachricht. Drücken Sie erneut Strg+B (oder warten Sie auf die Stilleerkennung), um zu stoppen. Hermes transkribiert Ihre Sprache, verarbeitet sie als ganz normale Nachricht und antwortet.

Was Sie brauchen

pip install "hermes-agent[voice]"

Dadurch werden sounddevice und numpy für die Mikrofonaufnahme und die Audioverarbeitung installiert. Außerdem benötigen Sie ein funktionierendes Mikrofon, das an Ihren Rechner angeschlossen ist.

Wann CLI-Sprache nützlich ist

  • Freihändiges Brainstorming: Denken Sie ein Problem laut durch, während Sie in Ihrem Büro auf und ab gehen. Hermes hält mit.
  • Barrierefreiheit: Wenn das Tippen schwierig oder langsam ist, beseitigt die Spracheingabe diese Hürde.
  • Diktat in Langform: Beschreiben Sie eine komplexe Aufgabe verbal, statt einen ganzen Absatz an Anweisungen zu tippen.

Der CLI-Sprachmodus ist die am stärksten „entwicklerorientierte" Sprachfunktion. Er ist nützlich, doch die wahre Magie entfaltet sich auf Messaging-Plattformen.

Telegram-Sprache: Senden Sie eine Sprachnotiz, erhalten Sie eine Sprachantwort

Hier wird der Sprachmodus für nicht-technische Nutzer wirklich nützlich. Auf Telegram:

  1. Sie senden eine Sprachnotiz (Mikrofonschaltfläche gedrückt halten, sprechen, loslassen)
  2. Hermes transkribiert Ihre Nachricht
  3. Hermes verarbeitet sie ganz normal
  4. Hermes sendet eine gesprochene Audionachricht zusammen mit der Textantwort zurück

Sie können auf Telegram ein vollständig sprachbasiertes Gespräch mit Ihrem Agenten führen. Tippen ist nicht erforderlich.

Was Sie brauchen

pip install "hermes-agent[messaging]"

Hinzu kommt die übliche Telegram-Bot-Einrichtung (Bot-Token von BotFather, konfiguriert in config.yaml).

Für eine höhere Qualität der Sprachausgabe können Sie Premium-TTS-Anbieter wie ElevenLabs konfigurieren:

pip install "hermes-agent[tts-premium]"

Das Telegram-Spracherlebnis in der Praxis

Stellen Sie sich diesen Ablauf vor:

  1. Sie sind auf dem Weg zur Arbeit. Sie halten in Telegram die Mikrofonschaltfläche gedrückt und sagen: „Was steht heute auf meinem Terminplan? Und erinnere mich daran, um 15 Uhr beim Zahnarzt anzurufen."
  2. Hermes prüft Ihren Kontext, legt die Erinnerung an und sendet eine Sprachnachricht zurück: „Sie haben heute Vormittag zwei Termine, ein Standup um 10 Uhr und ein Produkt-Review um 11:30 Uhr. Ich habe für 15 Uhr eine Erinnerung an den Zahnarztanruf eingerichtet."

Die gesamte Interaktion ist sprachbasiert. Sie öffnen nie eine Tastatur.

Konfiguration der automatischen Sprachantwort

Standardmäßig sendet Hermes auf Telegram sowohl Text- als auch Audioantworten, wenn der Sprachmodus aktiviert ist. Sie können dieses Verhalten konfigurieren:

  • Immer Sprache: Jede Antwort enthält gesprochenes Audio
  • In gleicher Form antworten: Sprachnachrichten erhalten Sprachantworten, Textnachrichten erhalten Textantworten
  • Nur Text: Deaktiviert die Sprachausgabe und behält die Spracheingabe bei

Der Modus „In gleicher Form antworten" ist der natürlichste. Er passt sich automatisch dem Kommunikationsstil des Nutzers an.

Discord-Sprachkanal: Live-Gespräch

Die fortschrittlichste Sprachfunktion. Hermes kann einem Discord-Sprachkanal beitreten, allen Sprechenden zuhören und in Echtzeit mit gesprochenem Audio antworten.

Dadurch wird der Agent zu einem Sprachteilnehmer in Gruppengesprächen. Mehrere Nutzer können Fragen stellen, und der Agent antwortet jedem einzelnen.

Was Sie brauchen

pip install "hermes-agent[messaging]"

Discord-Sprache erfordert discord.py[voice], das im Messaging-Extra enthalten ist. Außerdem benötigen Sie den Discord-Bot, konfiguriert mit Sprachberechtigungen auf Ihrem Server.

Wann Discord-Sprache nützlich ist

  • Team-Brainstorming: Der Agent beteiligt sich an einer Sprachdiskussion, macht Vorschläge und beantwortet Fragen in Echtzeit
  • Lerngruppen: Bitten Sie den Agenten, Konzepte während einer Live-Diskussion zu erklären
  • Gaming- und Social-Server: Der Agent kann ein sprachfähiger Helfer in Community-Kanälen sein
  • Barrierefreiheit: Nutzer, die nicht tippen können, können per Sprache mit dem Agenten interagieren

TTS-Sprachoptionen

Hermes unterstützt mehrere Text-to-Speech-Backends:

Anbieter Qualität Kosten Hinweise
System-TTS Einfach Kostenlos Standard, funktioniert überall
NeuTTS (lokal) Gut Kostenlos Läuft lokal, erfordert Einrichtung
ElevenLabs Hervorragend Kostenpflichtig Premium-Qualität, am natürlichsten klingend

Für den persönlichen Gebrauch reicht das System-TTS oder NeuTTS aus. Wenn Sie möchten, dass der Agent wirklich menschlich klingt, insbesondere für kundenorientierte Anwendungsfälle oder die Erstellung von Inhalten, ist ElevenLabs die Kosten wert.

Um ElevenLabs zu konfigurieren, fügen Sie Ihren API-Schlüssel zu ~/.hermes/.env hinzu:

ELEVENLABS_API_KEY=your_key_here

Und installieren Sie das Premium-TTS-Paket:

pip install "hermes-agent[tts-premium]"

Sprachen für die Spracheingabe

Hermes verwendet Whisper für die Spracherkennung, das 99 Sprachen unterstützt. Sie können auf Spanisch, Französisch, Deutsch, Mandarin oder den meisten anderen Sprachen sprechen, und der Agent transkribiert und antwortet entsprechend.

Die Transkriptionsqualität hängt von der Konfiguration des Whisper-Modells ab. Für beste Ergebnisse bei nicht-englischen Sprachen stellen Sie sicher, dass Sie ein ausreichend leistungsfähiges Whisper-Modell verwenden.

Überlegungen zum Datenschutz

Sprachdaten bringen Datenschutzaspekte mit sich, die bei Text nicht bestehen:

  • Audioaufnahmen: Prüfen Sie, ob Ihr TTS-/STT-Anbieter Audiodaten speichert. Hermes selbst verarbeitet Audio lokal, wenn lokale Modelle verwendet werden.
  • Sprachnachrichten auf Telegram: Telegram speichert Sprachnachrichten auf seinen Servern. Der Bot lädt sie zur Transkription herunter, doch die Originale verbleiben in der Telegram-Cloud.
  • Discord-Sprache: Discord-Sprachdaten durchlaufen die Infrastruktur von Discord, bevor sie den Bot erreichen.

Wenn Datenschutz oberste Priorität hat, sorgen lokale Whisper-Transkription und lokales TTS (NeuTTS) dafür, dass die gesamte Audioverarbeitung auf Ihrer Infrastruktur verbleibt.

Der Reiz für nicht-technische Nutzer

Der Sprachmodus ist die Funktion, die Hermes für Menschen zugänglich macht, die niemals ein Terminal verwenden würden. Wenn Sie einen Hermes-Agenten für ein Familienmitglied, einen Freund oder einen Kleinunternehmer einrichten, ist Sprache auf Telegram die Schnittstelle, die sie tatsächlich nutzen werden.

Betrachten Sie es aus ihrer Perspektive: Sie müssen keine CLI erlernen, sie müssen keine Modellkonfiguration verstehen, und sie müssen nicht tippen. Sie drücken und halten eine Schaltfläche in einer App, die sie ohnehin schon nutzen (Telegram), sprechen natürlich und erhalten eine gesprochene Antwort. Das ist das Erlebnis, das die Lücke zwischen „leistungsstarker KI-Agent" und „Tool, das meine Eltern nutzen würden" überbrückt.

Einrichten des Sprachmodus

Wenn Sie Hermes selbst betreiben:

  1. Sprachunterstützung installieren: pip install "hermes-agent[voice,messaging]"
  2. TTS in config.yaml konfigurieren (oder Standardwerte verwenden)
  3. Das Gateway starten: hermes gateway start --detach
  4. Eine Sprachnotiz an Ihren Telegram-Bot senden

Wenn Sie Hermify nutzen, funktioniert der Sprachmodus sofort, sobald Ihr Telegram-Bot verbunden ist. Keine zusätzliche Installation oder Konfiguration erforderlich.

Quellen

Betreiben Sie Ihren eigenen Hermes Agent

Bringen Sie Ihren API-Schlüssel mit, verbinden Sie Telegram und erhalten Sie in 60 Sekunden einen selbstlernenden KI-Agenten.

Loslegen