RAG: Lassen Sie die KI mit Ihren Dokumenten antworten und die Quelle zitieren
Ohne RAG erfindet das Modell. Mit gut implementiertem RAG sucht es in Ihrem Wissen, zitiert den Absatz und sagt «ich weiß es nicht», wenn es keine Beweise gibt.
Das Problem
Ihr Unternehmen hat Jahre an Dokumentation: technische Handbücher, Verträge, Angebote, interne Verfahren, Protokolle und Richtlinien. Aber die richtige Antwort zu finden, bedeutet oft, in Ordnern zu suchen, in Slack zu fragen oder den Kollegen zu unterbrechen, der «es weiß».
Generische LLMs antworten sicher, obwohl sie nicht über Ihre Daten verfügen. Sie fragen ChatGPT etwas über Ihr Produkt und erhalten eine plausible, aber falsche Antwort. Das führt zu Reklamationen im externen Support; im rechtlichen oder Compliance-Bereich besteht ein echtes Risiko.
Klassische Suchmaschinen liefern Links, keine Antworten. Der Mitarbeiter öffnet zehn PDFs, um einen Absatz zu finden. Die verlorene Zeit multipliziert sich mit jeder wiederholten Anfrage in Vertrieb, Support und Engineering.
Alle PDFs in einen «Enterprise»-Chat hochzuladen, ohne Architektur, schlägt oft fehl: veraltete Dokumente, falsch konfigurierte Berechtigungen, Antworten ohne Zitation und keine Möglichkeit, nachzuvollziehen, welches Fragment das Modell verwendet hat.
RAG ist keine Magie. Schlecht implementiert — kurze Chunks, billige Embeddings, ohne Zugriffskontrolle — führt es weiterhin zu Halluzinationen oder filtert vertrauliche Informationen an den falschen Benutzer.
Die Kosten des «Nicht-Findens» sind ebenfalls messbar: Angebote, die Tage dauern, weil niemand den ähnlichen Fall findet, Ingenieure, die bereits dokumentierte Lösungen neu implementieren, Audits, die aufgrund einer falschen Version des Verfahrens scheitern.
Viele Unternehmen haben versucht, «PDFs in ChatGPT hochzuladen». Es funktioniert für einen Test; in der Produktion scheitert es an Kontextgrenzen, ohne granulare Berechtigungen und ohne zu wissen, ob die Antwort aus dem Handbuch von 2021 oder von 2024 stammt.
Der organisatorische Wandel ist wichtig: Support, IT und Geschäft müssen sich einig sein, was automatisiert wird und was menschliches Urteil erfordert. Ohne diese Einigung erzeugt das Projekt interne Reibungen, auch wenn die Technologie funktioniert.
Stammeswissen in Slack oder Teams ist nicht indiziert: Wichtige Entscheidungen gelangen nie ins offizielle PDF. RAG ohne Dokumentationskultur bleibt unvollständig.
Mehrsprachig: Handbücher in Englisch und Anfragen in Deutsch erfordern Embeddings und Re-Ranking, die nicht nur eine Sprache annehmen.
Scans von Dokumenten mit schlechter Qualität verringern die Genauigkeit drastisch. In native Digitalisierung oder qualitativ hochwertiges OCR zu investieren, bevor RAG implementiert wird, spart Frustration.
RUMAZA verkauft keine Lizenzen: wir bauen ein System, das Sie messen, warten und erweitern können. Wenn der Kern des Problems nicht mit verfügbaren Daten automatisiert werden kann, sagen wir Ihnen das im ersten Meeting — das spart Monate und Budget.
Geistiges Eigentum und Vertraulichkeit: Verträge mit Geheimhaltungsvereinbarungen erfordern, dass das Index in einer kontrollierten Infrastruktur lebt und im Ruhezustand verschlüsselt ist.
Widersprüchliche Antworten zwischen zwei Dokumenten: Das System muss Konflikte anzeigen oder die aktuelle Version anhand von Metadaten priorisieren.
Drei Angebote ohne gemeinsame Spezifikation zu vergleichen, ist nutzlos: Umfang, Integrationen und Akzeptanzmetriken müssen identisch sein, um fundierte Entscheidungen zu treffen.
Ohne einen Verantwortlichen für das Dokumentenkorpus verdirbt das Index nach sechs Monaten. Benennen Sie einen Verantwortlichen pro Bereich, der die Einträge und Löschungen von Dokumenten validiert.
Iterationen mit realen Daten aus der ersten Produktionswoche: Anpassung von Schwellenwerten, Prompts und Regeln mit Metriken des Kunden, nicht Annahmen aus dem Labor.
Der Erfolg des Projekts wird im Kickoff-Meeting definiert: Basisvolumen, aktuelle Zeit pro Fall, Fehlerquote und Kosten pro Stunde — damit berechnen wir den ROI, bevor wir eine Zeile Code schreiben.
Schulung zum Abschluss: Wir liefern keine Software, die nur IT versteht. Der Geschäftsanwender weiß, wie man nutzt, skaliert und Vorfälle mit Screenshots und realen Beispielen aus dem Alltag meldet.
Was ist RAG (ohne Hype)
RAG (Retrieval Augmented Generation) ist eine Architektur: Wenn eine Frage eingeht, sucht das System die relevantesten Fragmente in Ihrer Dokumentationsbasis, injiziert sie als Kontext in das Sprachmodell und dieses verfasst die Antwort ausschließlich auf Grundlage dieses Materials.
Der technische Ablauf: Dokumentenaufnahme → Chunking → Embeddings → Vektorindex → semantische Suche → Re-Ranking → Prompt mit Kontext → Antwort mit Zitationen.
Der Schlüssel ist nicht das teuerste Modell. Es ist die Qualität des Index: aktualisierte Dokumente, Metadaten (Version, Abteilung, Berechtigungen), angemessenes Chunking und kontinuierliche Bewertung der Genauigkeit.
RAG ermöglicht es, zu sagen: «Laut Handbuch v3.2, Abschnitt 4.1…» mit Link zum Original-PDF. Wenn nicht genügend Beweise vorhanden sind, antwortet das System, dass keine Informationen gefunden werden — ein Verhalten, das explizit entworfen werden muss.
Es wird mit Zugriffskontrolle kombiniert: Ein Vertriebsmitarbeiter sieht keine HR-Verträge; ein Externer sieht nichts Internes. Die Berechtigungen leben im Index, nicht nur in der Benutzeroberfläche.
Komponenten, die den Unterschied ausmachen: Re-Ranking (Neuordnung der abgerufenen Fragmente), hybrides Keyword + Vektor, Metadatenfilterung nach Abteilung und kontinuierliche Bewertung mit Fragen von realen Benutzern.
RAG ersetzt nicht den Experten in kritischen Themen; es reduziert die Reibung bei der Suche. Der Senior-Ingenieur validiert weiterhin; findet jedoch den relevanten Abschnitt in Sekunden, anstatt fünfzehn PDFs zu öffnen.
Betriebskosten: Embeddings + Speicherung + Abfragen. In Korpora mit Tausenden von Dokumenten ist es immer noch um Größenordnungen günstiger als Stundenlohn, die schlecht suchen.
Schrittweise Einführung: Pilot mit einem Kanal oder einem Abfragetyp, Messung zwei Wochen, Erweiterung basierend auf Daten — kein Big Bang, der das Team und den Kunden überlastet.
Intelligentes Chunking respektiert Abschnitte, Tabellen und nummerierte Listen. Blindes Chunking zerreißt Preistabellen und erzeugt falsche Antworten.
Cache für häufige Abfragen reduziert Kosten und Latenz, ohne Aktualisierungen zu opfern, wenn sich das Quell-Dokument ändert.
Striktes Grounding: Der Prompt zwingt dazu, ein Fragment zu zitieren oder zu antworten, dass keine Informationen vorhanden sind. Standardkonfiguration bei RUMAZA, nicht optional.
RUMAZA-Kriterium: konkretes Problem, zugängliche Daten, Erfolgsmetrik und geschlossener Umfang. Ohne diese vier Säulen gibt es kein Projekt — es gibt ein Experiment, das dem Berater gut und dem Kunden schlecht in Rechnung gestellt wird.
Tabellen und Abbildungen in PDFs erfordern spezielle Extraktion; manchmal hybrid mit Seiten- und Beschriftungssuche, um kritische Zahlen nicht zu verlieren.
API für Dritte: andere Systeme konsumieren semantische Suche, ohne über den Chat zu gehen — nützlich für interne Portale.
Die evolutionäre Wartung — neue Intents, Anbieter, Sprachen — wird separat vom MVP budgetiert, um Überraschungen oder Zombie-Projekte zu vermeiden.
Hybride lexikalische + vektorielle Suche verbessert den Recall bei Produktcodes, SKUs und genauen rechtlichen Referenzen.
Post-Launch-Support mit direktem Kanal und vereinbartem SLA: kritische Vorfälle während der Arbeitszeit werden am selben Tag gelöst — kein ewiges Ticket.
Wir dokumentieren Annahmen, bekannte Grenzen und den Erweiterungsplan bei der Lieferung — vollständige Transparenz darüber, was das System heute tut und was für eine zweite Phase bleibt, wenn die Zahlen es rechtfertigen.
Architektur bereit zur Erweiterung: neue Kanäle, Sprachen oder Dokumente, ohne von Grund auf neu zu beginnen — modulare Erweiterung, kein fragiles Monolith.
Ausrichtung mit Sicherheit und Recht von Anfang an: DPIA, wenn anwendbar, Aufzeichnung von Verarbeitungstätigkeiten und Klauseln mit Unterauftragnehmern von Cloud-Modellen.
Wann es sinnvoll ist
- Mehr als 100 Dokumente, die das Team täglich abruft — mit Volumen und Daten, die dies rechtfertigen.
- Falsche Antworten aufgrund veralteter oder nicht vorhandener Informationen — mit Volumen und Daten, die dies rechtfertigen.
- Langsame Einarbeitung, weil «es irgendwo steht» — mit Volumen und Daten, die dies rechtfertigen.
- Technischer Support mit umfangreichen Handbüchern und mehreren Versionen — mit Volumen und Daten, die dies rechtfertigen.
- Sie müssen die Quelle aus Compliance- oder Auditgründen zitieren — mit Volumen und Daten, die dies rechtfertigen.
- Sie möchten einen internen Copiloten, bevor Sie einen Agenten mit Aktionen haben — mit Volumen und Daten, die dies rechtfertigen.
Was gebaut werden kann
Technisches Dokumentationsassistenz
Ingenieure stellen Fragen in natürlicher Sprache; das System sucht in Handbüchern und Datenblättern, antwortet mit Zitationen und verlinkt zum PDF. Enthält Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis Metriken in der Produktion kalibriert sind.
Vertriebscopilot
Sucht in gewonnenen Angeboten, Erfolgsgeschichten und internen Preisen. Beschleunigt Entwürfe, ohne Bedingungen zu erfinden. Enthält Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis Metriken in der Produktion kalibriert sind.
Intelligente FAQ für Support
Agenten konsultieren Richtlinien und Verfahren; einheitliche Antwort mit der aktuellen Version des Dokuments. Enthält Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis Metriken in der Produktion kalibriert sind.
Unternehmenssemantische Suchmaschine
Ersetzt oder ergänzt die Suche nach Schlüsselwörtern mit Verständnis der Absicht und Filtern nach Bereich und Datum. Enthält Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis Metriken in der Produktion kalibriert sind.
Wie RUMAZA es bauen würde
Mögliche Technologien
- Python
- LangChain / LlamaIndex
- OpenAI / Anthropic Embeddings
- PostgreSQL + pgvector
- Pinecone / Weaviate
- Unstructured / PyMuPDF
- FastAPI
- Redis
Anwendungsszenarien
Interne Dokumentation schwer zu finden
Handbücher, Richtlinien, Standardverträge und Verfahren in Ordnern oder PDFs. RAG hilft, nach Bedeutung zu suchen, nicht nur nach Dateinamen.
Vermischte Versionen desselben Dokuments
Mehrere Personen speichern «die gute Vorlage» an verschiedenen Orten. Es ist sinnvoll, nur offizielle Quellen zu indizieren und die Gültigkeit vor der Antwort zu kennzeichnen.
Langsame Einarbeitung neuer Mitarbeiter
Wiederholte Fragen dazu, wie man X im Unternehmen macht. Ein Assistent für interne Dokumentation reduziert die Abhängigkeit von einer einzelnen Expertin oder einem Experten.
Häufige Fehler
- Alles indizieren, ohne veraltete Versionen zu bereinigen
- Chunks, die zu klein oder zu groß sind und den Kontext verlieren
- Nicht mit realen Fragen des Geschäfts zu evaluieren
- Berechtigungen ignorieren: derselbe Index für alle Rollen
- Auf die Antwort vertrauen, ohne dem Benutzer Zitationen zu zeigen
- Kein Reindexing planen, wenn sich kritische Dokumente ändern
- Das Projekt nach 90 Tagen nicht mit realen Metriken überprüfen und anpassen oder schließen, was keinen Mehrwert bringt.
Häufige Fragen
Ersetzt RAG das Trainieren eines eigenen Modells?
In den meisten Unternehmensfällen ja. Es ist günstiger, aktualisierbar und auditierbar als Fine-Tuning für dokumentarisches Wissen. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Funktioniert es mit gescannten PDFs?
Ja, mit qualitativ hochwertigem OCR. Erhöht die Kosten für die Ingestion und kann die Genauigkeit verringern. Wir priorisieren Quellen mit nativem Text. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Welche Genauigkeit kann ich erwarten?
Hängt von der Dokumentationsqualität ab. Mit gutem Pipeline 70–85 % bei gut definierten Fragen. Wir messen dies in der Bewertung, versprechen nicht 99 %. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Kommen die Daten von meinem Server?
Wir können Cloud-Modelle mit DPA oder lokale Modelle verwenden, wenn die Richtlinie dies erfordert. Der Vektorindex kann in Ihrer Infrastruktur leben. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Wie lange dauert es, bis es betriebsbereit ist?
MVP mit einem begrenzten Korpus: 4–6 Wochen. Beinhaltet Ingestion, Index, grundlegende Schnittstelle und erste Bewertung. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Integriert es sich mit SharePoint oder Google Drive?
Ja. Connectoren zur Synchronisierung und Reindexierung, wenn sich Dateien ändern. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen — ohne generische Zahlen zu versprechen.
Verwandte Leitfäden
Verliert Ihr Team Stunden mit der Suche in Dokumenten?
Beschreiben Sie mir, welche Quellen Sie haben und wer was fragt. Ich schlage Ihnen eine RAG-Architektur mit messbarem Umfang vor.