Privater KI-Assistent selbst gehostet: Kaufberatung 2026

Sie wollen einen KI-Assistenten, der Ihren Posteingang, Ihre Verträge oder Ihre Kundennotizen nicht in den Trainingsdatensatz eines anderen zurückspeist. Sie wollen außerdem, dass er tatsächlich funktioniert: Sprache, geplante Aufgaben, Integrationen, der langweilige Standard von 2026. Diese beiden Ziele ziehen in entgegengesetzte Richtungen, und das Marketing für „private KI" ist inzwischen so laut, dass kaum noch zu erkennen ist, welche Produkte Ihre Daten wirklich privat halten und welche das nur auf der Startseite behaupten.

Dieser Leitfaden ist eine Übersicht. Wir sortieren die realen Optionen in vier ehrliche Kategorien, zeigen, was jede Kategorie an Geld und Aufwand kostet, und schließen mit einer Checkliste, die Sie auf jedes Produkt anwenden können, auch auf unseres, bevor Sie ihm Ihre Daten anvertrauen.

Ein kleiner, gut beleuchteter Server, der am Rand eines Schreibtisches leise eine private KI-Arbeitslast ausführt

Was „privat" tatsächlich bedeuten muss

Ein wirklich privater KI-Assistent muss drei Dinge gleichzeitig aus fremden Händen halten:

Die Modellgewichte oder den Inferenzaufruf. Entweder läuft das Modell auf von Ihnen kontrollierter Hardware, oder der API-Aufruf erfolgt über einen Vertrag, den Sie lesen können.
Den Gesprächsverlauf. Jeden Prompt, jede Antwort, jede hochgeladene Datei. Wenn ein Anbieter dies im Klartext speichert, ist „privat" eine Übertreibung.
Das Gedächtnis und die Geheimnisse, die der Assistent aufbaut. Persönlicher Kontext, API-Schlüssel, Kalender-Token. Das sind meist die wertvollsten Ziele.

Wenn ein Produkt zwei von drei Punkten richtig macht, der dritte aber durchsickert, haben Sie keinen privaten Assistenten. Sie haben eine Marketingseite. Messen Sie jede Option, auch unsere, an allen drei Punkten gleichzeitig.

Die vier realen Kategorien „privater KI" im Jahr 2026

Die ehrliche Version der Landschaft sieht so aus. Jede Zeile ist ein echter Kompromiss, keine Rangliste.

Kategorie	Beispiele	Was lokal bleibt	Was nicht	Am besten geeignet für
Vollständig lokal	Ollama, Jan.ai, AnythingLLM	Modellgewichte, Prompts, Verlauf, Gedächtnis	Nichts (wenn Sie hier aufhören)	Air-Gapped-Einsatz, regulierte Arbeitslasten, Hobbyisten mit einer GPU
Verschlüsselte Enklaven-SaaS	Maple AI	Prompt-Klartext (in einer Enklave verarbeitet)	Sie laufen auf fremder Hardware	Menschen, die starke kryptografische Privatsphäre ohne Homelab wollen
Datenschutzorientierte SaaS	Lumo (Proton), Kagi Assistant	Gespeicherter Verlauf (clientseitig verschlüsselt)	Klartext bei der Inferenz, eingeschränkte Modellauswahl	Menschen, die bereits tief in einem Datenschutz-Ökosystem wie Proton stecken
Selbst gehostete BYOK-Runtime	Hermify, OpenClaw, OpenWebUI	Verlauf, Gedächtnis, Geheimnisse, Integrationen	Der Inferenzaufruf, von Grund auf	Einzelbetreiber und kleine Teams, die einen echten Assistenten wollen, ohne eine GPU zu kaufen

Die erste Zeile ist der Goldstandard für reine Datensicherheit, und die letzte Zeile ist das, was die meisten Menschen tatsächlich wählen, sobald sie die Alternativen durchgerechnet haben. Die mittleren beiden sind echte Optionen für bestimmte Situationen, keine Standardwahl.

Vollständig lokal: maximale Privatsphäre, reale Kosten

Ein vollständig lokaler Stack, Ollama plus eine Oberfläche wie Jan.ai, AnythingLLM oder Open WebUI, hält alles auf Ihrer Hardware. Nichts verlässt die Maschine. Genau das meinen Compliance-Teams, wenn sie sagen: „Die Daten dürfen das Gebäude nicht verlassen."

Der Haken ist die Hardware. Ein nützliches lokales Modell im Jahr 2026 zu betreiben bedeutet mindestens 16-32 GB RAM, idealerweise einen aktuellen Apple-Silicon-Mac oder eine GPU mit 16-24 GB VRAM. Sie erhalten ein spürbar schwächeres Modell als die Cloud-Spitze, und Sie erhalten es langsamer. Für Routineaufgaben wie Zusammenfassungen, Entwürfe oder Code-Reviews ist das in Ordnung. Bei komplexem Schlussfolgern zeigt es sich.

Kostenmäßig ist die Hardware der Ausschlag nach oben. Danach zahlen Sie Ihre Stromrechnung. Wenn Sie die Maschine bereits haben, ist vollständig lokal die günstigste Option auf dieser Liste.

Verschlüsselte Enklaven-SaaS: kryptografische Privatsphäre auf fremder Hardware

Verschlüsselte Enklaven-Dienste wie Maple AI führen die Inferenz innerhalb hardware-isolierter Enklaven aus: Ihr Prompt wird nur innerhalb der Enklave entschlüsselt, im Arbeitsspeicher verarbeitet, und das Host-System sieht den Klartext nie. Der Enklaven-Code ist veröffentlicht und aus der Ferne attestierbar, sodass Sie überprüfen können, dass die Bereitstellung mit dem öffentlichen Quellcode übereinstimmt.

Das ist der kryptografisch ernsthafteste Ansatz für „private Cloud-KI", der ohne eigene Hardware verfügbar ist. Maple unterstützt Llama 3.3 70B, DeepSeek R1, Qwen 2.5 72B und andere. Die Preise beginnen bei etwa $5,99/Monat, mit einer Pro-Stufe für $20/Monat für die größeren Modelle und Datei-Uploads.

Der Kompromiss: Sie sind weiterhin darauf angewiesen, dass der Betreiber seine Enklave für immer korrekt betreibt. Wenn diese Hürde akzeptabel ist, ist dies eine starke Wahl.

Datenschutzorientierte SaaS: schönes Ökosystem, reale Obergrenze

Tools wie Protons Lumo speichern Ihren Verlauf clientseitig verschlüsselt: Der Server kann gespeicherte Gespräche nicht lesen. Die eigentliche Inferenz findet jedoch auf den Servern des Betreibers statt, auf dem jeweils unterstützten Modell, mit dem Prompt im Klartext am Modell.

Wenn Sie bereits für Proton Mail, Proton Drive und Proton VPN bezahlen, ist Lumo mit etwa $13/Monat eine sinnvolle Ergänzung. Falls nicht, ist die Datenschutz-Obergrenze niedriger, als das Marketing suggeriert, und die Modellauswahl beschränkt sich auf die Open-Source-Optionen, die der Anbieter ausliefert.

Selbst gehostete BYOK-Runtime: der pragmatische Standard 2026

Das ist die Kategorie, in der Hermify angesiedelt ist, zusammen mit selbst gehosteten Projekten wie OpenClaw und OpenWebUI. Die Runtime, der Gesprächsverlauf, das Gedächtnis, die verschlüsselten Geheimnisse, die Integrationen: All das liegt auf einem Server, den Sie kontrollieren, in der Regel einem VPS für $5-20. Der Inferenzaufruf geht an einen Cloud-Modellanbieter über Ihren eigenen API-Schlüssel (Bring Your Own Key, BYOK), was sowohl die Cloud Security Alliance als auch NIST gegenüber Cloud-Arrangements mit geteilten Schlüsseln empfehlen.

Sie erhalten nicht die vollständig lokale Garantie „Die Daten verlassen das Gebäude nie". Sie erhalten:

Einen echten Assistenten: Sprache, geplante Aufgaben, Telegram, Discord, eigene Skills, dauerhaftes Gedächtnis.
Eine langweilige monatliche Rechnung: ungefähr $5-20 für den VPS plus das, was Sie an Token ausgeben, oft weniger als ein einzelner SaaS-Platz.
Eine klare Datenschutzgeschichte: Verlauf und Gedächtnis auf Ihrer Maschine, Inferenz unter einem Vertrag, den Sie selbst unterschrieben haben.

Für Einzelbetreiber, kleine Teams und Beratende, die mit Kundendaten umgehen, ist dies die Option, die tatsächlich genutzt wird. Es ist nicht die kryptografisch extremste Wahl, und sie sollte auch nicht als solche verkauft werden. Es ist die pragmatische.

Ein geteilter Bildschirm, der ein lokales Modell auf einem Heimserver neben einer selbst gehosteten Runtime zeigt, die eine Cloud-Modell-API aufruft

Ein schneller Entscheidungsbaum

Lassen Sie die Philosophie beiseite und beantworten Sie vier Fragen:

Sind Sie gesetzlich verpflichtet, Daten auf Ihrer eigenen Hardware zu halten? Wenn ja, entscheiden Sie sich für vollständig lokal. Ollama plus Open WebUI ist ein vernünftiger Ausgangspunkt. Planen Sie ein Budget für eine ernsthafte Maschine ein.
Wollen Sie kryptografische Garantien, aber kein Homelab? Schauen Sie sich verschlüsselte Enklaven-Dienste wie Maple AI an. Lesen Sie die Attestierungsdokumentation, bevor Sie sich anmelden.
Stecken Sie bereits in einem Datenschutz-Ökosystem wie Proton, und genügt Ihnen gelegentliches Chatten? Lumo oder Ähnliches wird ausreichen.
Brauchen Sie einen echten Assistenten mit Integrationen, Gedächtnis, Sprache und geplanten Aufgaben bei kleinem Budget, und sind Sie mit einem Cloud-Inferenzaufruf unter Ihrem eigenen API-Schlüssel einverstanden? Eine selbst gehostete BYOK-Runtime ist der günstigste und flexibelste Weg. Hermify ist eine Option, OpenClaw eine andere, OpenWebUI eine dritte.

Es gibt keine einzig richtige Antwort. Es gibt die Antwort, die zu Ihrem Bedrohungsmodell, Ihrem Hardware-Budget und Ihrer Toleranz für das Herumbasteln an Konfigurationsdateien passt.

Die Audit-Checkliste, die Sie auf jeden anwenden können

Bevor Sie Ihre Kundendaten irgendeinem „privaten" KI-Produkt anvertrauen, auch unserem, sollten Sie sich klare Antworten auf Folgendes verschaffen:

Wo läuft das Modell tatsächlich? Auf Ihrer Hardware, der Hardware des Anbieters oder der Hardware eines Dritten?
Wo liegt der Gesprächsverlauf? Im Klartext, serverseitig verschlüsselt oder clientseitig verschlüsselt?
Wie werden API-Schlüssel und Integrations-Token gespeichert? Im Klartext, im Ruhezustand verschlüsselt (AES-256 oder gleichwertig) oder mit von Ihnen kontrollierten Schlüsseln verschlüsselt?
Was protokolliert der Anbieter, und wie lange?
Wenn der Anbieter morgen verschwindet, was passiert mit Ihren Daten? Gibt es einen Exportweg?
Ist der Code quelloffen oder prüfbar? Können Sie lesen, was tatsächlich läuft?

Ein Produkt, das diese Fragen nicht klar beantworten kann, ist nicht privat. Es ist undurchsichtig, und das ist etwas anderes.

Wo Hermify ehrlich gesagt hineinpasst

Hermify ist eine selbst gehostete BYOK-Runtime für Hermes Agent, gebaut für die pragmatische Kategorie: Verlauf, Gedächtnis und verschlüsselte Geheimnisse in einem Container pro Nutzer, Inferenz über Ihren eigenen API-Schlüssel. Es ist das richtige Werkzeug, wenn Sie einen echten Assistenten wollen, mit Telegram und Discord, Sprachmodus, geplanten Aufgaben und eigenen Skills, ohne zu Hause eine GPU aufzustellen.

Es ist nicht das richtige Werkzeug, wenn Ihr Compliance-Team „keine Drittanbieter-Inferenz, niemals" auf ein Blatt Papier geschrieben hat. In diesem Fall ist ein vollständig lokaler Stack auf Hardware, die Ihnen gehört, die Antwort, und wir würden Ihnen dasselbe sagen.

Wenn die selbst gehostete BYOK-Form zu der Art passt, wie Sie tatsächlich arbeiten, legen Sie mit Hermify los. Wenn Sie lieber zuerst die Kompromisse sehen möchten, führt die Aufschlüsselung Hosting vs. Self-Hosting dieselbe Entscheidung aus einem anderen Blickwinkel durch.