Zurück zum Blog
TelegramVoiceProductivityAI Agents

Freihändige KI: Hermes-Sprachmodus + Telegram-Workflows

Nutzen Sie den Sprachmodus von Hermes Agent auf Telegram für freihändige Produktivität. Echte Workflows für Morgenbriefings, Aufgabenerfassung und schnelle Nachschlagevorgänge, während Sie unterwegs sind.

Von Hermify Team||6 Min. Lesezeit
Ein Smartphone, das eine Telegram-Unterhaltung mit Sprachnachrichten-Sprechblasen eines KI-Agenten zeigt, neben einer Kaffeetasse auf einem morgendlichen Schreibtisch

Das Problem damit, alles tippen zu müssen

Die meisten KI-Assistenten gehen davon aus, dass Sie mit beiden freien Händen an einem Schreibtisch sitzen. Das wirkliche Leben funktioniert so nicht.

Sie fahren zu einem Meeting und müssen eine Aufgabe hinzufügen. Sie kochen gerade Abendessen und möchten eine Zutatenalternative für ein Rezept nachschlagen. Sie gehen zwischen zwei Terminen und möchten den Entwurf einer Folge-E-Mail diktieren. In all diesen Momenten versagt die übliche Schleife aus „App öffnen, Frage tippen, Antwort lesen".

Hermes Agent mit Sprachmodus auf Telegram löst dieses Problem. Sie senden eine Sprachnachricht, genau so, wie Sie sie einem Freund schicken würden, und der Agent transkribiert sie, verarbeitet sie und sendet eine gesprochene Antwort zurück. Die gesamte Interaktion ist freihändig.

So bauen Sie echte Produktivitäts-Workflows darum herum auf.

Wie die Sprach-Pipeline funktioniert

Wenn Sie eine Sprachnachricht an Ihren Hermes-Telegram-Bot senden:

  1. Telegram übermittelt die Audiodatei an den Bot
  2. Hermes lädt sie herunter und transkribiert sie mit Whisper (lokal) oder einem cloudbasierten STT-Anbieter
  3. Der transkribierte Text wird wie eine normale Nachricht verarbeitet, mit vollem Zugriff auf das Gedächtnis, die Skills und die Tools Ihres Agenten
  4. Hermes erzeugt eine Antwort und wandelt sie über Ihren konfigurierten TTS-Anbieter in gesprochenes Audio um
  5. Das Audio erscheint in Telegram als Sprachnachricht-Sprechblase, zusammen mit dem Text

Die vollständige Schleife ist je nach TTS-Anbieter und Nachrichtenlänge typischerweise in 3 bis 8 Sekunden abgeschlossen.

Entscheidend ist, dass das persistente Gedächtnis Ihres Agenten dafür sorgt, dass die Unterhaltung Kontext hat. Er weiß, wer Sie sind, woran Sie zuvor gearbeitet haben und welche Vorlieben Sie haben. Dies ist keine zustandslose Sprachsuche, sondern ein Gespräch mit einem Assistenten, der sich erinnert.

Morgenbriefing

Der durchgängig wertvollste Workflow ist das Morgenbriefing. Richten Sie einen Cron-Skill ein, der zu Ihrer bevorzugten Zeit ausgelöst wird und ein strukturiertes Update per Telegram-Sprachnachricht liefert:

# In your agent's skill configuration
- name: morning_briefing
  cron: "0 7 * * *"
  prompt: |
    Give me a brief morning update. Include any reminders set for today,
    a quick note on what I was working on yesterday, and a one-sentence
    focus suggestion. Keep it under 90 seconds of spoken audio.

Sie wachen mit einer Sprachnachricht in Telegram auf. Kein Bildschirm, kein Scrollen, keine Entscheidungsmüdigkeit darüber, was Sie sich zuerst ansehen sollen.

Telegram-Chat, der eine Morgenbriefing-Sprachnachricht eines Hermes-Agenten-Bots mit einem darunter sichtbaren Transkript zeigt

Aufgabenerfassung unterwegs

Einer der reibungsbehaftetsten Momente in jedem Produktivitätssystem ist das Festhalten eines Gedankens, bevor er verschwindet. Sprache plus Telegram reduziert diese Reibung auf nahezu null.

Halten Sie die Mikrofontaste gedrückt. Sprechen Sie: „Erinnere mich daran, vor Donnerstag mit Sarah wegen des Vertrags nachzuhaken." Loslassen. Fertig.

Ihr Agent transkribiert, versteht die Absicht, erstellt die Erinnerung und bestätigt mündlich: „Verstanden. Ich erinnere Sie am Mittwochabend an den Vertrag mit Sarah."

Das funktioniert beim Gehen, beim freihändigen Fahren, beim Kochen oder in jeder Situation, in der das Öffnen einer Notiz-App unpraktisch ist. Da Hermes über ein persistentes Gedächtnis verfügt, schwebt die erfasste Aufgabe nicht in einer separaten App, sondern lebt im Kontext all dessen, was Ihr Agent über Ihre Arbeit weiß.

Schnelle Nachschlagevorgänge

Sprache ist besonders stark bei einfachen Nachschlagevorgängen, die sich beim Tippen unverhältnismäßig langsam anfühlen:

  • „Wie viel sind 230 Grad Fahrenheit in Celsius?"
  • „Wie viele Milliliter sind zwei Esslöffel Olivenöl?"
  • „Wie hieß noch das Framework, über das wir letzten Dienstag gesprochen haben?"
  • „Fasse zusammen, woran ich gestern gearbeitet habe."

Diese Fragen lassen sich mühelos aussprechen. Beim Tippen fühlen sie sich wie Reibung an. Sprache auf Telegram lässt Ihren Agenten wie eine natürliche Erweiterung des Denkens wirken statt wie ein Werkzeug, das Sie bewusst bedienen.

Diktieren und Entwerfen

Hermes kann als sprachgesteuerter Assistent zum Entwerfen dienen. Sprechen Sie eine grobe Idee aus und bitten Sie den Agenten, sie zu formen:

„Entwirf eine kurze Entschuldigungs-E-Mail an den Kunden wegen der Lieferverzögerung. Professionell, aber herzlich, unter 150 Wörtern."

Der Agent schreibt den Entwurf und sendet ihn als Text zusammen mit einer gesprochenen Bestätigung. Sie verfeinern ihn per Sprache oder kopieren ihn in Ihr E-Mail-Programm. Keine Tastatur nötig bis zum endgültigen Versand.

Das ist besonders wirkungsvoll für:

  • E-Mail-Antworten während des Pendelns
  • Besprechungsnotizen, die unmittelbar nach einem Anruf diktiert werden, bevor die Details verblassen
  • Brainstorming-Sitzungen, in denen Sie Ideen festhalten möchten, ohne den Faden zu verlieren

Das Muster „Antwort in gleicher Form"

Hermes kann so konfiguriert werden, dass er Ihren Kommunikationsmodus übernimmt. Im Modus „Antwort in gleicher Form":

  • Sprachnachricht von Ihnen, Sprachantwort von Hermes
  • Textnachricht von Ihnen, Textantwort von Hermes

Dies ist die natürlichste Einstellung. Wenn Sie die Hände frei haben und lesen möchten, tippen Sie. Wenn Sie unterwegs sind, sprechen Sie. Der Agent passt sich an, ohne dass Sie pro Nachricht etwas konfigurieren müssen.

Um es zu aktivieren, legen Sie Ihren TTS-Modus in config.yaml fest:

tts:
  mode: reply_in_kind

Mehrsprachiger Sprachmodus

Hermes verwendet Whisper zur Transkription, das über 90 Sprachen unterstützt. Sie können auf Spanisch, Portugiesisch, Französisch oder in jeder anderen unterstützten Sprache sprechen, und der Agent transkribiert, verarbeitet und antwortet entsprechend.

Für mehrsprachige Haushalte oder Teams können verschiedene Mitglieder mit demselben Agenten in ihrer bevorzugten Sprache interagieren. Das Gedächtnis und die Skills des Agenten werden geteilt, nur die Sprache der Benutzeroberfläche passt sich pro Unterhaltung an.

Ein Telefon mit geöffnetem Telegram, das Sprachnachrichten in zwei Sprachen mit unter jeder Audio-Sprechblase angezeigten Transkriptionen zeigt

Gruppenchats

Hermes funktioniert auch in Telegram-Gruppenchats. Mehrere Benutzer können Sprachnachrichten an einen gemeinsamen Bot senden, was ihn für kleine Teams nützlich macht, die einen gemeinsamen KI-Assistenten wünschen, ohne die App zu wechseln. Der Agent antwortet auf jede Nachricht einzeln und behält den Kontext über den gesamten Gesprächsverlauf hinweg bei.

Sprachmodus auf Telegram einrichten

Wenn Sie Hermes selbst betreiben:

  1. Installieren Sie die Messaging- und Sprach-Extras: pip install "hermes-agent[messaging,voice]"
  2. Fügen Sie Ihr Telegram-Bot-Token zu config.yaml hinzu
  3. Legen Sie einen TTS-Anbieter fest (Edge TTS funktioniert sofort, ohne API-Schlüssel)
  4. Starten Sie das Gateway: hermes gateway start --detach
  5. Senden Sie eine Sprachnachricht an Ihren Bot, um es zu testen

Wenn Sie Hermify nutzen, wird Telegram mit zwei Tipps über das Dashboard verbunden, und der Sprachmodus ist in dem Moment aktiv, in dem Ihr Bot verknüpft ist. Kein Terminal, kein Gateway zu verwalten.

Daraus eine Gewohnheit machen

Sprach-Workflows bleiben nur dann bestehen, wenn die Reibung gering genug ist. Ein paar Dinge, die helfen:

  • Pinnen Sie Ihre Bot-Unterhaltung in Telegram an, damit sie immer nur einen Tipp entfernt ist und nie in der App vergraben wird
  • Beginnen Sie mit einem Workflow: Das Morgenbriefing hat den größten Hebel. Sobald das zur Routine geworden ist, schichten Sie die Aufgabenerfassung darauf und danach das Entwerfen.
  • Nutzen Sie den Modus „Antwort in gleicher Form", damit Sie nicht mit Sprachnachrichten überschwemmt werden, wenn Sie an Ihrem Schreibtisch sitzen und lesen möchten

Das Ziel ist nicht, all Ihre Werkzeuge durch Sprache zu ersetzen. Es geht darum, die Reibung aus jenen Momenten zu nehmen, in denen Tippen wirklich die falsche Schnittstelle ist.

Quellen

Betreiben Sie Ihren eigenen Hermes Agent

Bringen Sie Ihren API-Schlüssel mit, verbinden Sie Telegram und erhalten Sie in 60 Sekunden einen selbstlernenden KI-Agenten.

Loslegen