n8n und RAG: Unternehmens-KI-Chatbot mit eigenen Daten

Sora Yazılım Ekibi5.6.2026

KI mit eigenen Daten Ein n8n-RAG-Chatbot lädt Ihre Unternehmensdokumente in einen Vektorspeicher, damit das LLM Antworten ausschließlich aus Ihren proprietären Daten generiert. Das reduziert das Halluzinationsrisiko, macht Antworten nachvollziehbar und schützt die Vertraulichkeit unternehmensinterner Informationen.

Was ist RAG und warum n8n?

RAG (Retrieval-Augmented Generation) ist eine Architektur, die vor der Beantwortung einer Anfrage relevante Textabschnitte aus einem Vektorspeicher abruft und in den LLM-Prompt einfügt. Das Modell antwortet ausschließlich aus diesem bereitgestellten Kontext und eliminiert damit halluzinierte oder veraltete Informationen.

Bei herkömmlichen LLM-Integrationen stützt sich das Modell ausschließlich auf seine Trainingsdaten. Interne Richtliniendokumente, Produkthandbücher, Vertragsarchive und CRM-Notizen liegen vollständig außerhalb dieser Trainingsdaten. RAG schließt diese Lücke: Jede Benutzeranfrage wird zunächst über ein Embedding-Modell in einen Vektor umgewandelt, der Vektorspeicher wird nach semantischer Ähnlichkeit durchsucht, und die gefundenen Abschnitte werden dem Prompt hinzugefügt, bevor das LLM seine Antwort generiert.

n8n ermöglicht es, diese gesamte Pipeline auf einem visuellen Workflow-Canvas zu konfigurieren. Dank der Unternehmensautomatisierungsfähigkeiten von n8n können Dokumentenerfassung, Embedding-Generierung, Vektorspeicherschreiben und der Live-Abfragefluss alle in einem einzigen Workflow kombiniert werden. IT-Teams erhalten eine visuelle, überprüfbare Pipeline, ohne Python-Skripte oder FastAPI-Server einrichten zu müssen.

Ein weiterer Vorteil ist die Self-Hosting-Option von n8n. In Branchen, die Datensouveränität erfordern — Banken, Gesundheitswesen, öffentliche Verwaltung — können n8n und der Vektorspeicher vollständig auf den eigenen Servern der Organisation betrieben werden, sodass keine Unternehmensdaten das Perimeter verlassen.

RAG-Architektur: Embedding, Vektorspeicher, Retrieval

Eine RAG-Pipeline besteht aus drei Kernphasen: Dokumente in Abschnitte aufteilen und in Vektoren umwandeln (Ingest und Embed), diese Vektoren in einen Vektorspeicher schreiben und beim Eintreffen einer Benutzeranfrage die ähnlichsten Abschnitte abrufen (Retrieval).

In n8n wird jede Phase durch spezialisierte Nodes abgedeckt: ein HTTP-Request- oder Google-Drive-Node für die Dokumentenerfassung; ein Text-Splitter-Node für die Segmentierung; ein Embeddings-Node (OpenAI, Cohere oder ein lokales Modell) für die Vektorisierung; und der entsprechende Vector-Store-Insert-Node für das Schreiben in den gewählten Speicher.

Dokumentenerfassung: PDFs, DOCX-Dateien, Webseiten oder API-Antworten werden in den n8n-Workflow eingelesen.
Segmentierung (Chunking): Große Dokumente werden unter Beibehaltung der semantischen Kohärenz in 500–1000-Token-Abschnitte aufgeteilt.
Embedding-Generierung: Jeder Abschnitt wird über das gewählte Embedding-Modell in einen hochdimensionalen Vektor umgewandelt.
Vektorspeicher-Schreiben: Vektoren werden zusammen mit dem Originaltext und Metadaten (Dateiname, Seitenzahl, Datum) gespeichert.
Abfrage-Embedding: Die eingehende Benutzeranfrage wird durch dasselbe Embedding-Modell verarbeitet.
Ähnlichkeitssuche: Der Vektorspeicher gibt die N ähnlichsten Abschnitte (Top-k) zum Abfragevektor zurück.
Prompt-Zusammenstellung: Die abgerufenen Abschnitte werden in den System-Prompt eingefügt, bevor er an das LLM gesendet wird.
Antwortgenerierung: Das LLM antwortet ausschließlich aus dem bereitgestellten Kontext und die Antwort wird an den Benutzer übermittelt.

Eine gute Praxis ist es, zwei separate Workflows zu erstellen: einen für die Erfassung (ausgelöst, wenn neue Dokumente eintreffen) und einen für den Live-Abfragefluss (ausgelöst über Webhook oder den n8n-Chat-Node). Diese Trennung hält die Verantwortlichkeiten klar und ermöglicht die unabhängige Skalierung und Wartung jedes Flows.

Vektorspeicher-Auswahl: Pinecone, Qdrant, Weaviate, Supabase pgvector, Milvus

n8n unterstützt fünf Vektorspeicher mit nativen Nodes. Die richtige Wahl hängt davon ab, ob Sie einen verwalteten Dienst oder Self-Hosted-Deployment benötigen, sowie von Ihren Datensouveränitätsanforderungen, dem erwarteten Maßstab und der Teamkompetenz.

Jeder Vektorspeicher hat ausgeprägte Stärken. Die folgende Tabelle fasst die Enterprise-Auswahlkriterien zusammen:

Vektorspeicher	Verwaltungsmodell	Self-Host	n8n-Node	Hauptmerkmal	Bestes Einsatzszenario
Pinecone	Vollständig verwaltet (SaaS)	Nein	Ja	Kein Infrastrukturaufwand, Auto-Skalierung	Schnelles Prototyping, kleiner bis mittlerer Maßstab
Qdrant	Verwaltet oder self-hosted	Ja	Ja	Hohe Leistung, umfangreiche Filterung	Enterprise-Self-Hosting, DSGVO-Konformität
Weaviate	Verwaltet oder self-hosted	Ja	Ja	Hybridsuche (Vektor + Schlüsselwort)	Multimodale Inhalte, semantische Suche
Supabase pgvector	Verwaltet oder self-hosted	Ja	Ja	Vektor auf PostgreSQL; Verknüpfung mit vorhandener DB	Erweiterung vorhandener PostgreSQL-Infrastruktur
Milvus	Verwaltet oder self-hosted	Ja	Ja	Milliarden-Vektoren, Kubernetes-nativ	Großer Enterprise-Maßstab, hochvolumige Produktion

In Enterprise-Deployments sind Qdrant oder Weaviate die häufigste Wahl; beide laufen self-hosted auf Docker oder Kubernetes und integrieren sich direkt mit n8n-Workflows. Für Organisationen, die bereits PostgreSQL betreiben, ist Supabase pgvector der praktischste Weg, Vektorfähigkeit ohne einen zusätzlichen Dienst zu gewinnen.

Schritt für Schritt: Von Dokumenten zum Chatbot (n8n-Workflow)

Ein vollständiger RAG-Chatbot in n8n erfordert zwei Workflows: einen Ingest-Flow, der Dokumente in den Vektorspeicher lädt, und einen Query-Flow, der Live-Benutzeranfragen verarbeitet. Beide werden visuell zusammengestellt — kein eigener Code erforderlich.

Unser n8n-KI-Agent-Einrichtungsleitfaden behandelt die grundlegende LLM-Integration. Für RAG erweitern Sie diese Basis einfach durch Hinzufügen von Vektorspeicher-Nodes und Embedding-Nodes.

Ingest-Workflow

Der Ingest-Workflow folgt dieser Node-Kette: Trigger (Manuell oder Zeitplan) → Dokumentenquelle (Google Drive, S3, HTTP) → Text-Splitter (Chunk-Größe: 800 Token, Überlappung: 100) → Embeddings-Node (z. B. OpenAI text-embedding-3-small) → Vektorspeicher-Insert (Qdrant / Weaviate / pgvector). Jeder Abschnitt wird mit Metadaten wie dem ursprünglichen Dateinamen, der Seitenzahl und dem Zeitstempel gespeichert, die später in Antworten die Quelle angeben können.

Query-Workflow

Der Query-Workflow folgt dieser Kette: Chat-Trigger (Webhook oder n8n-Chat-Node) → Embeddings-Node (für die Benutzeranfrage) → Vektorspeicher-Retrieval (Top-k: 4–6 Abschnitte) → LLM-Chain (System-Prompt + Kontext + Benutzeranfrage) → Antwortausgabe. Der System-Prompt im LLM-Chain-Node sollte das Modell anweisen, nur aus dem bereitgestellten Kontext zu antworten und es explizit anzugeben, wenn Informationen nicht verfügbar sind.

Das Hinzufügen eines Memory-Nodes zur Kette bewahrt den Gesprächsverlauf und ermöglicht kontextbezogene Mehrfach-Austausche — eine kritische Funktion für Kundensupport- und interne Helpdesk-Szenarien.

LLM- und Prompt-Integration

Die LLM-Chain- und KI-Agent-Nodes von n8n unterstützen OpenAI, Anthropic, Azure OpenAI und lokale Modelle über Ollama. Das Prompt-Design beeinflusst die RAG-Genauigkeit direkt; der System-Prompt muss das Modell auf den bereitgestellten Kontext beschränken und es anweisen, Quellen anzugeben.

n8n bietet große Flexibilität bei der LLM-Auswahl. Cloud-basierte Modelle wie GPT-4o oder Claude können neben Open-Source-Modellen (Llama 3, Mistral, Phi-3) verwendet werden, die lokal über Ollama laufen. Wenn ein lokales Modell gewählt wird, verbleibt die gesamte LLM-Inferenz in der Unternehmensinfrastruktur — API-Kosten sinken auf null und der Datenschutz ist vollständig gewährleistet.

Ein effektiver RAG-System-Prompt sollte enthalten: (1) eine kurze Rollendefinition, die den Assistenten und seine Aufgabe identifiziert; (2) eine Anweisung, nur aus dem gelieferten Kontext zu antworten; (3) eine explizite Rückzugsformulierung wie 'Dazu liegen mir keine Informationen vor — bitte wenden Sie Sie sich an die zuständige Abteilung' für Out-of-Scope-Anfragen; und (4) eine Anweisung, die Quelle (Dateiname, Seitenzahl) anzugeben, sofern zutreffend.

LLM-Option	Zugriffsmodell	Datenschutz	Kosten	Empfohlene Verwendung
GPT-4o (OpenAI)	API (Cloud)	Daten gehen an OpenAI	Hoch	Hochwertige Produktion, allgemeiner Einsatz
Claude 3.5 Sonnet (Anthropic)	API (Cloud)	Daten gehen an Anthropic	Mittel-Hoch	Langer Kontext, sicherheitsorientierte Antworten
Azure OpenAI	API (Azure-Cloud)	Daten können in EU/TR-Region bleiben	Mittel-Hoch	Unternehmen auf Microsoft-Infrastruktur
Ollama (lokales Modell)	Self-hosted	Daten verlassen das Unternehmen nicht	Niedrig (Infrastrukturkosten)	Vollständige Datensouveränität erforderlich

Genauigkeit und Evaluierung: KI-Evaluierungen

Das KI-Evaluierungsfeature von n8n führt automatisch einen Testdatensatz durch den Workflow und bewertet jede Antwort hinsichtlich Genauigkeit, Treue und Relevanz. Dies ermöglicht die systematische Überwachung der Retrieval-Qualität vor und nach dem Produktionsdeployment.

Die Überprüfung der Genauigkeit vor dem Go-Live ist für jeden Unternehmens-RAG-Chatbot unerlässlich. Der KI-Evaluierungs-Node automatisiert diesen Prozess: Sie bereiten einen Testdatensatz mit Frage-Antwort-Paaren vor, jede Frage wird durch den Workflow geleitet, und die generierte Antwort wird gegen die erwartete Antwort bewertet.

Evaluierungsmetriken umfassen typischerweise drei Dimensionen: Retrieval-Genauigkeit (ob der relevante Abschnitt tatsächlich abgerufen wurde), Antwort-Treue (ob das Modell nur den bereitgestellten Kontext verwendet hat) und Antwort-Relevanz (ob die Antwort die Frage direkt beantwortet). Mindestschwellenwerte für jede Metrik können als Produktionsreifkriterien definiert werden.

Evaluierungsergebnisse können in eine Datenbank innerhalb von n8n geschrieben oder als Slack-Benachrichtigungen gesendet werden. Ein geplanter Evaluierungs-Workflow ermöglicht die Regressionserkennung, wenn neue Dokumente hinzugefügt oder das Embedding-Modell aktualisiert wird. Unternehmens-n8n-Anwendungsfälle umfassen zunehmend diese Art autonomer Qualitätsschleifen.

Datenschutz und Enterprise-Deployment (DSGVO-Konformität)

Bei der Arbeit mit personenbezogene Daten enthaltenden Dokumenten gemäß DSGVO garantiert der Self-hosted-Betrieb von n8n und dem Vektorspeicher in der eigenen Infrastruktur die Datensouveränität. Bei Verwendung von Cloud-LLM-APIs ist ein unterzeichneter Datenverarbeitungsvertrag (DPA) zwingend erforderlich.

Unser n8n-Sicherheits- und Enterprise-Governance-Leitfaden behandelt die detaillierte Sicherheitskonfiguration. Im RAG-Kontext sind die wichtigsten Überlegungen: Anwendung von Datenmaskierung auf Dokumentabschnitte vor dem Schreiben in den Vektorspeicher, Verschlüsselung von Embedding-API-Aufrufen mit TLS, Beschränkung des n8n-Workflow-Zugriffs über rollenbasierte Autorisierung und Führung von Audit-Logs.

Für Organisationen unter starkem regulatorischem Druck — Gesundheitswesen, Finanzen, öffentlicher Sektor — besteht die empfohlene Architektur aus: n8n self-hosted (Docker/Kubernetes), Qdrant oder Weaviate self-hosted, Ollama oder Azure OpenAI (EU-Region) und PostgreSQL für die Metadatenspeicherung. In dieser Konfiguration verlässt keine Daten die Organisation.

Eine weitere DSGVO-Überlegung ist das Recht auf Löschung im Vektorspeicher. Wenn die Daten einer Person entfernt werden müssen, reicht es nicht aus, das Quelldokument zu löschen; die entsprechenden Vektorabschnitte müssen aus dem Speicher bereinigt und die verbleibenden Daten möglicherweise neu eingebettet werden. Ein automatisierter 'Datenlöschungs-Workflow' ist ein wesentlicher Bestandteil jedes Enterprise-RAG-Systems.

Häufig gestellte Fragen

Was ist RAG und wie unterscheidet es sich von einem Standard-LLM?

RAG (Retrieval-Augmented Generation) ruft relevante Dokumentabschnitte aus einem Vektorspeicher ab, bevor es eine Anfrage beantwortet, und fügt sie in den Prompt ein. Ein Standard-LLM stützt sich nur auf Trainingsdaten; RAG versorgt das Modell mit den aktuellen, proprietären Daten Ihrer Organisation und reduziert Halluzinationen und veraltete Antworten.

Welchen Vektorspeicher sollte ich in n8n wählen?

Für schnelles Prototyping verwenden Sie Pinecone (verwaltet); für Datensouveränität Qdrant oder Weaviate (self-hosted); wenn Sie bereits PostgreSQL betreiben, ist Supabase pgvector die einfachste Erweiterung; für groß angelegte Produktion Milvus. Die Entscheidung sollte von Kosten, Skalierung und regulatorischen Anforderungen geleitet werden.

Muss ich Code schreiben, um einen RAG-Chatbot in n8n einzurichten?

Nein. Der visuelle Workflow-Editor von n8n ermöglicht es Ihnen, die gesamte Pipeline — Embedding, Vektorspeicher-Schreiben, Ähnlichkeitssuche und LLM-Chain — mit Drag-and-Drop-Nodes zu erstellen. Für benutzerdefinierte Dokumentenvorverarbeitung oder erweiterte Authentifizierungsszenarien können kleine JavaScript- oder Python-Snippets hinzugefügt werden.

Kann ich ein lokales (On-Premises) LLM verwenden?

Ja. n8n integriert sich mit Ollama und ermöglicht es Ihnen, Open-Source-Modelle wie Llama 3, Mistral oder Phi-3 lokal auszuführen. In diesem Setup befinden sich sowohl das LLM als auch der Vektorspeicher in Ihrer Infrastruktur — API-Kosten sinken auf null und vollständige Datensouveränität wird erreicht.

Wie wird die Genauigkeit eines RAG-Chatbots gemessen?

Der KI-Evaluierungs-Node von n8n führt einen Frage-Antwort-Testdatensatz durch den Workflow und bewertet Retrieval-Genauigkeit, Antwort-Treue und Relevanz. Die regelmäßige Planung dieser Evaluierung erkennt Regressionen, wenn neue Dokumente hinzugefügt oder das Embedding-Modell geändert wird.

Wie wird die Datensicherheit des Unternehmens gemäß DSGVO gewährleistet?

Self-Hosting sowohl von n8n als auch vom Vektorspeicher garantiert die Datensouveränität. Datenmaskierung vor dem Embedding, rollenbasierte Zugangskontrolle, TLS-Verschlüsselung und Audit-Logging sind obligatorisch. Bei Verwendung eines Cloud-LLM ist ein unterzeichneter Datenverarbeitungsvertrag (DPA) mit dem Anbieter erforderlich.

Was kostet ein Enterprise-n8n-RAG-Chatbot?

Die Kosten bestehen aus drei Komponenten: n8n (kostenlos self-hosted, Enterprise-lizenziert in der Cloud), Embedding- und LLM-API-Gebühren (null bei Verwendung eines lokalen Modells) und der Vektorspeicher (Qdrant/Weaviate self-hosted kostenlos; Pinecone nutzungsbasiert). Für kleine bis mittlere Maßstäbe sind die dominierenden Kosten typischerweise die API-Gebühren.

Fazit

Die RAG-Architektur von n8n ermöglicht es Unternehmensorganisationen, nachvollziehbare, datenschutzkonforme KI-Chatbots zu erstellen, die ausschließlich aus eigenen Dokumenten und Daten schöpfen. Der visuelle Workflow-Editor konsolidiert die gesamte Pipeline — von Embedding und Vektorspeicherverwaltung bis hin zu LLM-Integration und automatisierter Qualitätsevaluierung — in einem einzigen Tool.

Um zu bestimmen, welcher Vektorspeicher Ihren Anforderungen entspricht und wie Sie eine DSGVO-konforme Architektur gestalten, vereinbaren Sie ein kostenloses Kennenlerngespräch mit dem Sora-KI-Team. Als führender Technologiepartner in der Türkei für n8n-basierte Enterprise-KI-Pipelines ist Sora Yazılım bereit, Ihr Projekt vom Konzept bis zur Produktion zu begleiten.

← Blog