Die beste Modell-Anbieter-Konfiguration für Hermes Agent

Die Anbieterwahl sind eigentlich zwei Fragen auf einmal

Wenn Menschen nach der besten Modell-Anbieter-Konfiguration für Hermes Agent fragen, stellen sie meist zwei Fragen gleichzeitig:

Welchen Anbieter und welches Modell sollte Hermes verwenden?
Wie viel betriebliche Komplexität nehme ich damit auf mich?

Das sind unterschiedliche Fragen, die häufig zu einer einzigen verschmolzen werden. Bei der ersten geht es um Qualität, Kosten und Leistungsfähigkeit. Bei der zweiten geht es darum, wie viele Konten, Schlüssel und Abrechnungsbeziehungen Sie verwalten möchten. Sich über beide im Klaren zu sein, macht die Entscheidung unkompliziert.

Die Anbieter, die Hermes unterstützt

Die offizielle Hermes-Agent-Konfiguration unterstützt fünf Anbieterwege:

OpenRouter, Ein einziger API-Schlüssel, der zu Hunderten von Modellen von Anthropic, OpenAI, Meta, Google, Nous und anderen weiterleitet. Eine Abrechnungsoberfläche, ein Schlüssel. Dies ist der häufigste Ausgangspunkt für neue Hermes-Bereitstellungen.

Anthropic direkt, Bietet direkten Zugang zu Claude-Modellen ohne einen dritten Vermittler. Nützlich, wenn Sie eine direkte Beziehung zur API von Anthropic wünschen oder wenn Sie bereits Anthropic-API-Kunde sind und Ihre Abrechnung bündeln möchten.

OpenAI direkt, Direkter Zugang zu GPT-4 und den Reasoning-Modellen der o-Serie. Am nützlichsten, wenn Ihre Arbeitsabläufe speziell von der Tool-Calling-Implementierung oder den Code-Interpreter-Fähigkeiten von OpenAI profitieren.

Nous Portal, Das eigene Portal von Nous Research, mit bevorzugtem Zugang zu Modellen der Hermes-Familie. Da Hermes Agent von Nous entwickelt wurde, weisen die Modelle der Hermes-Familie eine ungewöhnlich enge Abstimmung mit den System-Prompts und dem Verhalten des Agenten auf.

OpenAI-kompatible Endpunkte, Jeder Anbieter, der eine OpenAI-kompatible API bereitstellt, einschließlich lokaler Modelle über Ollama oder LM Studio. Nützlich für abgeschottete (air-gapped) oder kostensensible Bereitstellungen.

Warum die meisten Nutzer mit OpenRouter beginnen

OpenRouter setzt sich für die anfängliche Einrichtung aus einem einfachen Grund durch: Sie erhalten Modell-Flexibilität ohne vorherige Festlegung. Anstatt zu entscheiden, ob Claude oder GPT-4 besser für Ihren Arbeitsablauf geeignet ist, bevor Sie überhaupt Nutzungsdaten haben, beginnen Sie mit einem einzigen Schlüssel und wechseln das Modell jederzeit.

Für einen sich selbst verbessernden Agenten wie Hermes, der darauf ausgelegt ist, monatelang zu laufen und Kontext anzusammeln, ist die Fähigkeit, das Modell zu aktualisieren, ohne die Bereitstellungsinfrastruktur anzufassen, sehr wichtig. Sie können mit einem günstigeren Modell beginnen und zu Claude wechseln, wenn die Aufgabenkomplexität es erfordert.

Der Hermes-Einrichtungsablauf macht dies konkret:

provider: openrouter
model: anthropic/claude-3-5-sonnet
openrouter_api_key: sk-or-your-key-here

Um das Modell zu ändern, ohne Ihre Konfiguration zurückzusetzen:

hermes model

Die Entscheidung zur Modellauswahl

Wenn OpenRouter der Anbieter ist, kommt es auf die Modellwahl an. Dies sind die praktischen Optionen:

anthropic/claude-3-5-sonnet, Starke Befolgung von Anweisungen, langer Kontext (200k Tokens), hervorragend für mehrstufige Arbeitsabläufe und Schreibaufgaben. Dies ist die Standardempfehlung für Hermes, weil die Speicherdateien und Skill-Aufrufe des Agenten umfangreich sein können und die Tiefe des Kontextfensters von Bedeutung ist.

nousresearch/hermes-3-llama-3.1-405b, Das eigene Modell von Nous, das speziell auf Daten trainiert wurde, die mit der Art und Weise übereinstimmen, wie Hermes Agent seine Prompts strukturiert. Einen Test wert, wenn Sie im Nous-Ökosystem bleiben und die engstmögliche Passung zwischen Modell und Laufzeit wünschen.

openai/gpt-4o, Schnell, gut bei Code und strukturierter Ausgabe, starke Tool-Calling-Unterstützung. Verwenden Sie dieses Modell, wenn Ihre Hermes-Arbeitsabläufe in erster Linie Code-Aufgaben sind oder wenn Sie eine schnellere Iterationsgeschwindigkeit benötigen.

meta-llama/llama-3.1-70b-instruct, Offene Gewichte (open-weights), deutlich günstiger pro Token als Spitzenmodelle. Verwenden Sie dieses Modell für umfangreiche Arbeitsabläufe mit geringerer Komplexität, bei denen die Kosten pro Interaktion wichtiger sind als die maximale Leistungsfähigkeit.

google/gemini-2.0-flash, Sehr schnell, Kontextfenster von 1 Million Tokens, wettbewerbsfähige Kosten. Eine gute Wahl, wenn Ihre Hermes-Speicherdateien groß sind und Sie bei anderen Modellen ständig an die Kontextgrenzen stoßen.

BYOK gegenüber inkludiertem Zugang

Es gibt zwei klare Bereitstellungsphilosophien:

BYOK (Bring Your Own Key): Sie erstellen ein Konto bei dem Anbieter Ihrer Wahl, generieren einen API-Schlüssel und fügen ihn in Hermes ein. Sie zahlen direkt an den Anbieter und haben volle Transparenz über Ihre Modellausgaben. Darauf ist der Starter-Tarif von Hermify ausgelegt: Sie bringen den Schlüssel mit, die Plattform übernimmt alles andere.

Inkludierter Modellzugang: Einige Hermify-Tarife enthalten den Modellzugang als Teil des Abonnements, sodass Sie überhaupt kein Konto bei einem dritten Anbieter benötigen. Sie zahlen eine Rechnung, und die Modellnutzung ist gebündelt. Das ist im laufenden Betrieb einfacher: ein Konto weniger, eine Abrechnungsbeziehung weniger, keine Kontingentverwaltung.

Die richtige Wahl hängt davon ab, wie hoch Sie Kontrolle gegenüber Einfachheit gewichten. BYOK verschafft Ihnen vollständige Kostentransparenz und ermöglicht eine Optimierung je Modell. Der inkludierte Zugang ist der schnellste Weg zu einer funktionierenden Bereitstellung, wenn Sie noch kein Anbieterkonto haben.

Kontextfenster und Speicherdateien

Eine Sache, die Menschen bei Hermes überrascht: Der Agent liest zu Beginn jeder Sitzung Ihre MEMORY.md und alle Kontextdateien. Nach einigen Wochen der Nutzung können diese Dateien mehrere Tausend Tokens umfassen.

Wenn Sie ein Modell mit einem kleinen Kontextfenster (unter 32k Tokens) wählen, werden Sie mit dem Anwachsen der Speicherdateien verschlechtertes Verhalten feststellen: Antworten, die den Kontext zu ignorieren scheinen, oder leere Vervollständigungen, wenn der Prompt das Fenster überschreitet.

Dies ist das praktische Argument für Modelle mit 128k+ Kontext: nicht, dass Sie routinemäßig 128k Tokens verwenden werden, sondern dass Sie genug Spielraum wollen, damit das Wachstum des Speichers niemals zu einem Leistungsproblem wird. Claude, Gemini und die Llama-3.1-Modelle auf OpenRouter bieten alle 128k oder mehr.

Was sich auf der Betriebsebene ändert

Wenn Sie ein selbst gehostetes Hermes verwenden, bedeuten Anbieterwechsel, dass Sie die config.yaml bearbeiten und den Prozess neu starten. Wenn Sie die verwaltete Bereitstellung von Hermify nutzen, werden Anbieter-Zugangsdaten und Modellauswahl über das Dashboard verwaltet: Schlüssel oder Modell ändern, einen Neustart auslösen, und die neue Konfiguration tritt innerhalb von Sekunden in Kraft.

Für stabile Bereitstellungen ist das kein dramatischer Unterschied, aber er ist von Bedeutung während der Abstimmungsphase, wenn Sie mit Modellen und Anbietern experimentieren.

Eine praktische Ausgangskonfiguration

Wenn Sie eine Standardvorgabe möchten und nicht im Voraus Zeit mit der Bewertung von Optionen verbringen wollen:

Anbieter: OpenRouter
Primäres Modell: anthropic/claude-3-5-sonnet
Ausweichmodell: meta-llama/llama-3.1-70b-instruct
Anfängliches Guthaben: $10–$20 auf OpenRouter (reicht typischerweise mehrere Wochen regelmäßiger Nutzung)

Von dieser Ausgangsbasis aus können Sie Anpassungen vornehmen, sobald Sie Ihre eigenen Nutzungsmuster verstehen. Das Modell, das Sie wählen, wirkt sich auf die Speicherqualität, die Tool-Zuverlässigkeit und die Leistung bei langem Kontext aus, nicht nur auf die Antwortgeschwindigkeit. Beginnen Sie dort, wo die Obergrenze hoch ist, und arbeiten Sie sich bei Bedarf zu den Kosten zurück.

Wenn Sie die Anbieterkonfiguration ganz überspringen und mit einer funktionierenden Bereitstellung beginnen möchten, erläutert die Hosting-Seite von Hermify, wie Sie Hermes live bekommen, ohne selbst Anbieterkonten zu verwalten.