RUMAZA Studio
KI für Unternehmen

Datenextraktion aus Dokumenten: vom PDF zum ERP ohne Eingabe

Rechnungen, Lieferscheine, Verträge und Formulare in unterschiedlichen Formaten. Die KI liest, strukturiert und validiert — Sie überprüfen nur das, was unklar ist.

Das Problem

Jeden Tag kommen Dokumente in unterschiedlichen Formaten an: natives PDF, Scans, Fotos vom Handy, E-Mails mit Anhängen. Jemand öffnet jedes einzelne, lokalisiert Anbieter, Datum, Betrag, Zeilen, Steuernummer und gibt sie im ERP ein. Ein Dezimalfehler oder eine falsch kopierte Steuernummer kostet Stunden der Abstimmung.

Das klassische OCR liefert unstrukturierte Textdaten. Es bleibt ein Mensch erforderlich, der interpretiert, wo sich jedes Feld befindet, wenn das Layout zwischen Anbietern oder Vorlagenversionen wechselt.

Die „Enterprise“-Lösungen zur Dokumentenerfassung sind oft teuer, langsam zu konfigurieren und unflexibel gegenüber neuen Dokumenten. Startups stellen eine Person nur für die „Rechnungseingabe“ ein.

Die generative KI verspricht, jedes Dokument zu lesen, aber ohne Validierung, Schemas und Vertrauensschwellen führen Sie fehlerhafte Daten in kritische Systeme ein. Schlimmer als der manuelle Prozess: der Fehler bleibt bis zum Abschluss der Buchhaltung unentdeckt.

Das Volumen wächst ständig: mehr Anbieter, mehr Anhänge per E-Mail, mehr Anforderungen an die Nachverfolgbarkeit. Skalierung durch Vorlagen funktioniert nicht, wenn jedes Dokument leicht unterschiedlich ist.

In regulierten Sektoren —Gesundheitswesen, Bauwesen, Lebensmittel— ist das falsche Dokument nicht nur eine Unannehmlichkeit: es ist eine Geldstrafe oder der Verlust einer Zertifizierung. Die assistierte Extraktion mit Validierung reduziert sowohl das Risiko als auch die Zeit.

Teams, die „bereits OCR haben“, benötigen weiterhin 3 FTE zur Überprüfung der Ausgabe, da der Text nicht strukturiert ist. Der Wert liegt im validierten JSON-Schema, nicht im Lesen von Zeichen.

Der organisatorische Wandel ist wichtig: Support, IT und Geschäft müssen sich darauf einigen, was automatisiert wird und was menschliches Urteilsvermögen erfordert. Ohne diese Einigung erzeugt das Projekt interne Reibungen, auch wenn die Technologie funktioniert.

Korrekturrechnungen und Gutschriften brechen naive Parser. Das System muss den Dokumenttyp und das Vorzeichen des Betrags verstehen.

Detailzeilen mit Dezimalbeträgen, Rabatten pro Zeile und mehreren Mehrwertsteuersätzen erfordern mathematische Validierung nach der Extraktion.

Schadhafte Anhänge in E-Mails mit Rechnungen: der Pipeline muss scannen und isolieren, bevor OCR angewendet wird. Sicherheit und Extraktion gehen Hand in Hand.

RUMAZA verkauft keine Lizenzen: wir bauen ein System, das Sie messen, warten und erweitern können. Wenn der Kern des Problems nicht automatisierbar ist mit verfügbaren Daten, sagen wir Ihnen das im ersten Meeting —das spart Monate und Budget.

Mehrseitige Dokumente und Anhänge: Rechnung mit mehreren Seiten, die Bedingungen auf Seite 4 enthält; die Pipeline muss den Kontext verketten, ohne die Gesamtsummen zu vermischen.

Fremdwährung und Wechselkurs: separate Felder für den ursprünglichen Betrag und den auf EUR normalisierten Betrag, falls zutreffend.

Drei Angebote ohne gemeinsame Spezifikation zu vergleichen, ist sinnlos: Umfang, Integrationen und Akzeptanzmetriken müssen identisch sein, um fundierte Entscheidungen zu treffen.

Elektronische Rechnungen im XML-Format können ohne KI geparsed werden; hybrid spart Kosten: Regeln für strukturierte Daten, Modell für den Rest.

Iteration mit realen Daten der ersten zwei Wochen in der Produktion: Anpassung von Schwellenwerten, Prompts und Regeln mit Metriken des Kunden, nicht Annahmen aus dem Labor.

Der Erfolg des Projekts wird im Kickoff-Meeting definiert: Basisvolumen, aktuelle Zeit pro Fall, manuelle Fehlerquote und Kosten pro Stunde —damit berechnen wir den ROI, bevor wir eine Zeile Code schreiben.

Schulung zum Abschluss: wir liefern keine Software, die nur die IT versteht. Der Geschäftsnutzer weiß, wie er mit dem System arbeiten, skalieren und Vorfälle mit Screenshots und realen Beispielen aus seinem Alltag melden kann.

Go-Live-Checkliste: Berechtigungen, Backups, Rollback, Eskalationskontakte und schriftlich vereinbarte Hypercare-Fenster —so startet die Produktion am Wochenende ohne Überraschungen.

Was ist die Datenextraktion mit KI (ohne Hype)

Es handelt sich um eine Pipeline, die ein Dokument (PDF, Bild, E-Mail) erhält, bei Bedarf Text mit OCR extrahiert, Modelle für Bildverarbeitung und Sprache verwendet, um relevante Felder zu identifizieren, und strukturierte Daten (JSON) zurückgibt, die bereit sind zur Validierung und zum Import.

Es ist nicht nur OCR. Es ist das Verständnis des Layouts: zu wissen, dass „Gesamt“ in der unteren rechten Ecke der Endbetrag ist, dass die Detailzeilen in einer Tabelle stehen und dass die Steuernummer des Absenders nicht die des Empfängers ist.

Der Produktionsfluss umfasst: Bildvorverarbeitung, Extraktion, Normalisierung (Daten, Währungen, Dezimalstellen), Kreuzvalidierung (Summe der Zeilen = Gesamt), Geschäftsregeln (bekannter Anbieter, Duplikate) und menschliche Warteschlange bei niedrigem Vertrauen.

Es funktioniert besser, wenn Sie das Ausgabeschema definieren: welche Felder obligatorisch sind, Typen, Bereiche und was zu tun ist, wenn eines fehlt. Freitext ohne Struktur eignet sich nicht für die Integration.

Es integriert sich mit eingehenden E-Mails, gemeinsamen Ordnern, SFTP oder manuellen Uploads. Das Ziel kann ERP, Staging-Datenbank, Datenbank oder API von Drittanbietern sein.

Straight-through processing (STP) ist das Ziel: Dokumente, die ohne Berührung durchgehen. Sie beginnen nicht bei 90 %; Sie kalibrieren Schwellenwerte mit realen Daten über Wochen.

Kritische Felder —Steuernummer, IBAN, Gesamt, Datum— erfordern algorithmische Validierung zusätzlich zum Modell. Die spanische Steuernummer hat eine Kontrollziffer; verwenden Sie sie.

Versionierung von Modellen und Prompts: wenn sich das Layout eines großen Anbieters ändert, passen Sie es an, ohne die gesamte Pipeline neu zu schreiben.

Schrittweise Einführung: Pilot mit einem Kanal oder einem Dokumenttyp, Messung zwei Wochen, Erweiterung basierend auf Daten —kein Big Bang, der das Team und den Kunden überlastet.

Vertrauen pro Feld: kein globaler Score. Sie können sich selbst genehmigen, wenn Steuernummer und Gesamt hoch sind, auch wenn eine Zeilenbeschreibung zweifelhaft ist.

Export in Buchhaltungsformate (CSV, API Sage, Holded) mit konfigurierbarem Konten-Mapping pro Anbieter oder Kategorie.

Historie der Korrekturen pro Anbieter: wenn dasselbe Layout immer fehlerhaft ist, spezifische Regeln ohne das gesamte Modell neu zu trainieren.

RUMAZA-Kriterium: konkretes Problem, zugängliche Daten, Erfolgsmetrik und geschlossener Umfang. Ohne diese vier Säulen gibt es kein Projekt —es gibt ein Experiment, das dem Berater gut und dem Kunden schlecht in Rechnung stellt.

Webhook beim Abschluss der Extraktion: ERP oder n8n erhält JSON und löst den nächsten Schritt im Workflow ohne Polling aus.

Audit: wer genehmigt hat, wann und welche Version des Modells jedes Feld extrahiert hat —Nachverfolgbarkeit für ISO oder Audits.

Die evolutionäre Wartung —neue Intents, Anbieter, Sprachen— wird separat vom MVP budgetiert, damit es keine Überraschungen oder Zombieprojekte gibt.

Überprüfungs-UI mit Tastenkombinationen für Mitarbeiter, die Dutzende von Dokumenten pro Stunde verarbeiten —Produktivität ist wichtig.

Support nach dem Launch mit direktem Kanal und vereinbartem SLA: kritische Vorfälle während der Arbeitszeit werden am selben Tag gelöst —kein ewiges Ticket.

Wir dokumentieren Annahmen, bekannte Grenzen und den Erweiterungsplan bei der Übergabe —vollständige Transparenz darüber, was das System heute tut und was für eine Phase zwei bleibt, wenn die Zahlen es rechtfertigen.

Architektur, die für Erweiterungen bereit ist: neue Kanäle, Sprachen oder Dokumente, ohne alles von Grund auf neu zu machen —modulare Erweiterung, kein fragiles Monolith.

Ausrichtung mit Sicherheit und Recht von Anfang an: DPIA, wenn zutreffend, Protokollierung von Verarbeitungstätigkeiten und Klauseln mit Subauftragnehmern von Cloud-Modellen.

Retrospektive-Meeting nach 30 und 60 Tagen: was funktionierte, was angepasst werden muss, ob eine Phase zwei sinnvoll ist —Entscheidung basierend auf Daten, nicht durch Budgetgewohnheiten.

Wir priorisieren Ergebnisse, die das Geschäft in der ersten Woche bemerkt: eine gelöste Anfrage, ein verarbeiteten Dokument oder einen nützlichen Entwurf —frühe Erfolge, die das Vertrauen in den Rest der Roadmap finanzieren.

Wann es sinnvoll ist

Criterios
  • Mehr als 50 Dokumente/Monat mit Daten zur Transkription —mit Volumen und Daten, die dies rechtfertigen.
  • Verschiedene Eingabeformate, die feste Vorlagen verhindern —mit Volumen und Daten, die dies rechtfertigen.
  • Manuelle Fehler mit buchhalterischen oder rechtlichen Kosten —mit Volumen und Daten, die dies rechtfertigen.
  • Zu lange Zykluszeiten in Einkauf oder Buchhaltung —mit Volumen und Daten, die dies rechtfertigen.
  • Sie benötigen Nachverfolgbarkeit: Originaldokument + extrahierte Felder —mit Volumen und Daten, die dies rechtfertigen.
  • Sie möchten das Volumen skalieren, ohne das Verwaltungspersonal zu verdoppeln —mit Volumen und Daten, die dies rechtfertigen.

Was gebaut werden kann

01

Erfassung von Lieferantenrechnungen

E-Mail → Extraktion → Abgleich mit Bestellung → Entwurf im ERP. Warnung bei Duplikaten oder Beträgen außerhalb des Rahmens. Beinhaltet Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis die Metriken in der Produktion kalibriert sind.

02

Verarbeitung von Lieferscheinen und Empfangsbestätigungen

Vergleicht extrahierte Mengen mit der Bestellung; markiert Abweichungen vor der Genehmigung des Empfangs. Beinhaltet Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis die Metriken in der Produktion kalibriert sind.

03

Extraktion von Verträgen und Klauseln

Identifiziert Parteien, Daten, automatische Verlängerung, Strafen. Strukturierte Zusammenfassung für die Rechtsabteilung. Beinhaltet Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis die Metriken in der Produktion kalibriert sind.

04

Heterogene Formulare und Datenblätter

Onboarding von Anbietern, interne Anfragen oder Arbeitsberichte: variable Felder zu einem einheitlichen Schema. Beinhaltet Protokolle, Vertrauensschwellen und menschliche Überprüfung in der Anfangsphase, bis die Metriken in der Produktion kalibriert sind.

Wie RUMAZA es bauen würde

01
Dokumentenprobe
50–100 anonymisierte reale Dokumente zur Messung der Variabilität und Definition des Schemas. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.
02
Schema und Validierungen
Felder, Typen, Kreuzregeln und Liste bekannter Anbieter. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.
03
Pipeline OCR + KI
Vorverarbeitung, Extraktion mit Modell für Bildverarbeitung/Sprache, Nachbearbeitung und Vertrauensbewertung. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.
04
Zielintegration
API ERP, Staging-Datenbank oder CSV-Export mit Idempotenz. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.
05
Überprüfungs-UI
Seitenansicht: Dokument und bearbeitbare Felder. Lernen von häufigen Korrekturen. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.
06
Metriken
Quote des Straight-Through-Processing, Fehler nach dem Import, Zeit pro Dokument. Dokumentiertes und mit Ihnen überprüftes Ergebnis vor dem nächsten Schritt.

Mögliche Technologien

  • Python
  • OpenAI GPT-4V / Anthropic
  • Tesseract / Azure Document Intelligence
  • PyMuPDF / pdfplumber
  • Django / FastAPI
  • PostgreSQL
  • Celery
  • APIs SAP / Holded / individuelles ERP

Anwendungsszenarien

Escenario 1

PDFs von Anbietern mit unterschiedlichen Formaten

Jeder Anbieter sendet seine Rechnung mit einem anderen Design. Die flexible Extraktion kann Schlüsselbereiche normalisieren, bevor sie in die Buchhaltung importiert werden.

Escenario 2

Bauprotokolle oder Lieferscheine auf Papier oder Foto

Handgeschriebene oder gescannte Informationen, die jemand ins System überträgt. OCR + strukturierte Validierung reduziert die Eingabe und Fehler.

Escenario 3

Verträge und Datenblätter mit sich wiederholenden Feldern

Es müssen Klauseln, Daten oder Identifikationsdaten in vielen Dokumenten überprüft werden. Es ist sinnvoll, diese zu extrahieren und mit einer Checkliste zu vergleichen, anstatt sie einzeln zu lesen.

Häufige Fehler

Evitar
  • Import in ERP ohne Validierung von Duplikaten
  • 100 % Vertrauen ohne anfängliche Überprüfungsschlange
  • Schema zu ambitioniert in der ersten Version
  • Qualität von Scans und verschwommenen Fotos ignorieren
  • Das Quell-Dokument nicht mit dem Datensatz verknüpfen
  • Nur „verarbeitete Dokumente“ messen, nicht die Genauigkeit der Felder
  • Das Projekt nach 90 Tagen mit realen Metriken nicht überprüfen und anpassen oder schließen, was keinen Mehrwert bietet.

Häufige Fragen

Funktioniert es mit Rechnungen in anderen Sprachen?

Ja. Mehrsprachige Modelle unterstützen ES, EN, FR, DE. Wir validieren mit einer realen Stichprobe Ihrer Anbieter. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Welche Genauigkeit ist realistisch?

Bei Standardrechnungen 85–95 % pro Feld mit gutem Scan. Sehr variable Dokumente erfordern zu Beginn mehr menschliche Überprüfung. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Ersetzt es meine Buchhaltungssoftware?

Nein. Es speist Ihr ERP oder Ihre Buchhaltung mit strukturierten Daten. Die steuerliche Logik bleibt in Ihrem System. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Erfüllt es die Anforderungen an elektronische Rechnungen?

Die Extraktion ergänzt Facturae, PDF und E-Mail. Für strukturiertes XML reicht manchmal das Parsen; die KI kommt bei unstrukturierten Daten ins Spiel. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Wo werden die Dokumente gespeichert?

In Ihrer Infrastruktur oder einem Bucket mit Verschlüsselung. Aufbewahrung gemäß Ihrer Richtlinie und DSGVO. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Wie lange dauert ein Pilot?

3–4 Wochen mit einem Dokumenttyp (z.B. Lieferantenrechnungen) und einer Ausgangs-Integration. Dies definieren wir im Umfang basierend auf Ihren Systemen, Volumen und rechtlichen Einschränkungen —ohne generische Zahlen zu versprechen.

Verwandte Leitfäden

Aktualisiert: 2026-06-29 · Autor: Rubén Maestre

Tippen Sie weiterhin Daten aus PDFs ein?

Senden Sie mir anonymisierte Beispiele, und ich teile Ihnen die erwartete Automatisierungsquote und Architektur mit.