Extracción de datos de documentos: del PDF al ERP sin teclear
Facturas, albaranes, contratos y fichas con formatos distintos. La IA lee, estructura y valida —tú revisas solo lo dudoso.
El problema
Cada día llegan documentos en formatos distintos: PDF nativo, escaneo, foto desde móvil, email con adjunto. Alguien abre cada uno, localiza proveedor, fecha, importe, líneas, CIF y los teclea en el ERP. Un error de decimal o un CIF mal copiado cuesta horas de conciliación.
El OCR clásico devuelve texto plano sin estructura. Sigue haciendo falta un humano que interprete dónde está cada campo cuando el layout cambia entre proveedores o versiones de plantilla.
Las soluciones «enterprise» de captura documental suelen ser caras, lentas de configurar y rígidas ante documentos nuevos. Las startups contratan una persona solo para «meter facturas».
La IA generativa promete leer cualquier documento, pero sin validación, schemas y umbrales de confianza introduces datos basura en sistemas críticos. Peor que el proceso manual: el error pasa desapercibido hasta el cierre contable.
El volumen no para de crecer: más proveedores, más adjuntos por email, más requisitos de trazabilidad. Escalar a base de plantilla no funciona cuando cada documento es ligeramente distinto.
En sectores regulados —sanidad, construcción, alimentación— el documento incorrecto no es solo molestia: es multa o pérdida de certificación. La extracción asistida con validación reduce riesgo además de tiempo.
Equipos que «ya tienen OCR» siguen con 3 FTE revisando salida porque el texto no está estructurado. El salto de valor está en el schema JSON validado, no en leer caracteres.
El cambio organizativo importa: soporte, IT y negocio deben acordar qué se automatiza y qué requiere criterio humano. Sin ese acuerdo, el proyecto genera fricción interna aunque la tecnología funcione.
Facturas rectificativas y abonos rompen parsers naífos. El sistema debe entender tipo documental y signo del importe.
Líneas de detalle con decimales, descuentos por línea y múltiples tipos de IVA exigen validación matemática post-extracción.
Adjuntos maliciosos en email de facturas: el pipeline debe escanear y aislar antes de OCR. Seguridad y extracción van juntas.
RUMAZA no vende licencias: construye sistema que puedes medir, mantener y ampliar. Si el núcleo del problema no es automatizable con datos disponibles, te lo decimos en la primera reunión —ahorro de meses y de presupuesto.
Multi-página y anexos: factura de varias hojas con términos en página 4; el pipeline debe concatenar contexto sin mezclar totales.
Moneda extranjera y tipo de cambio: campos separados para importe original y normalizado a EUR si aplica.
Comparar tres presupuestos sin especificación común es inútil: alcance, integraciones y métricas de aceptación deben ser idénticos para decidir con criterio.
Facturas electrónicas en XML pueden parsearse sin IA; híbrido ahorra coste: reglas para estructurado, modelo para el resto.
Iteración con datos reales de la primera quincena en producción: ajuste de umbrales, prompts y reglas con métricas del cliente, no suposiciones del laboratorio.
El éxito del proyecto se define en la reunión de kickoff: volumen base, tiempo actual por caso, tasa de error manual y coste hora —con eso calculamos ROI antes de escribir una línea de código.
Formación al cierre: no entregamos software que solo IT entiende. El usuario de negocio sabe usar, escalar y reportar incidencias con capturas y ejemplos reales de su día a día.
Checklist de go-live: permisos, backups, rollback, contactos de escalado y ventana de hipercare acordada por escrito —así arranca producción sin sorpresas el fin de semana.
Qué es la extracción de datos con IA (sin humo)
Es un pipeline que recibe un documento (PDF, imagen, email), extrae texto con OCR si hace falta, usa modelos de visión y lenguaje para identificar campos relevantes y devuelve datos estructurados (JSON) listos para validar e importar.
No es solo OCR. Es comprensión de layout: saber que «Total» cerca de la esquina inferior derecha es el importe final, que las líneas de detalle van en tabla y que el CIF del emisor no es el del receptor.
El flujo de producción incluye: preprocesado de imagen, extracción, normalización (fechas, monedas, decimales), validación cruzada (suma de líneas = total), reglas de negocio (proveedor conocido, duplicados) y cola humana si confianza baja.
Funciona mejor cuando defines el schema de salida: qué campos son obligatorios, tipos, rangos y qué hacer si falta uno. Texto libre sin estructura no sirve para integrar.
Se integra con email entrante, carpetas compartidas, SFTP o upload manual. El destino puede ser ERP, hoja de cálculo staging, base de datos o API de terceros.
Straight-through processing (STP) es el objetivo: documentos que pasan sin tocar. No empiezas al 90 %; calibras umbrales con datos reales durante semanas.
Campos críticos —CIF, IBAN, total, fecha— llevan validación algorítmica además del modelo. El CIF español tiene dígito de control; úsalo.
Versionado de modelos y prompts: cuando cambia el layout de un proveedor grande, ajustas sin reescribir todo el pipeline.
Despliegue gradual: piloto con un canal o un tipo de consulta, medición dos semanas, ampliación por datos —no big bang que satura al equipo y al cliente.
Confianza por campo: no un score global. Puedes auto-aprobar si CIF y total son altos aunque una descripción de línea sea dudosa.
Export a formatos contables (CSV, API Sage, Holded) con mapeo de cuentas configurable por proveedor o categoría.
Histórico de correcciones por proveedor: si siempre falla el mismo layout, reglas específicas sin reentrenar todo el modelo.
Criterio RUMAZA: problema concreto, dato accesible, métrica de éxito y alcance cerrado. Sin esos cuatro pilares, no hay proyecto —hay experimento que factura bien al consultor y mal al cliente.
Webhook al completar extracción: ERP o n8n recibe JSON y dispara siguiente paso del workflow sin polling.
Auditoría: quién aprobó, cuándo y qué versión del modelo extrajo cada campo —trazabilidad para ISO o auditorías.
El mantenimiento evolutivo —nuevos intents, proveedores, idiomas— se presupuesta aparte del MVP para que no haya sorpresas ni proyecto zombie.
UI de revisión con atajos de teclado para operarios que procesan decenas de documentos por hora —productividad importa.
Soporte post-lanzamiento con canal directo y SLA acordado: incidencias críticas en horario laborable resueltas en el día —no ticket eterno.
Documentamos supuestos, límites conocidos y plan de ampliación en la entrega —transparencia total sobre qué hace el sistema hoy y qué queda para una fase dos si los números lo justifican.
Arquitectura preparada para ampliar: nuevos canales, idiomas o documentos sin rehacer desde cero —extensión modular, no monolito frágil.
Alineación con seguridad y legal desde el diseño: DPIA cuando aplica, registro de actividades de tratamiento y cláusulas con subencargados de modelos cloud.
Reunión de retrospectiva a los 30 y 60 días: qué funcionó, qué ajustar, si conviene fase dos —decisión con datos, no por inercia del presupuesto.
Priorizamos entregables que el negocio nota en la primera semana: una consulta resuelta, un documento procesado o un borrador útil —victorias tempranas que financian la confianza en el resto del roadmap.
Cuándo tiene sentido
- Más de 50 documentos/mes con datos a transcribir
- Varios formatos de entrada que impiden plantillas fijas
- Errores manuales con coste contable o legal
- Tiempo de ciclo de compras o contabilidad demasiado largo
- Necesitas trazabilidad: documento original + campos extraídos
- Quieres escalar volumen sin duplicar plantilla administrativa
Qué se puede construir
Captura de facturas de proveedor
Email → extracción → matching con pedido → borrador en ERP. Alerta si duplicado o importe fuera de rango. Incluye logs, umbrales de confianza y revisión humana en la fase inicial hasta calibrar métricas en producción.
Procesado de albaranes y recepciones
Compara cantidades extraídas con pedido; marca discrepancias antes de aprobar recepción. Incluye logs, umbrales de confianza y revisión humana en la fase inicial hasta calibrar métricas en producción.
Extracción de contratos y cláusulas
Identifica partes, fechas, renovación automática, penalizaciones. Resumen estructurado para legal. Incluye logs, umbrales de confianza y revisión humana en la fase inicial hasta calibrar métricas en producción.
Formularios y fichas heterogéneas
Onboarding de proveedores, solicitudes internas o partes de trabajo: campos variables a schema unificado. Incluye logs, umbrales de confianza y revisión humana en la fase inicial hasta calibrar métricas en producción.
Cómo lo construiría RUMAZA
Tecnologías posibles
- Python
- OpenAI GPT-4V / Anthropic
- Tesseract / Azure Document Intelligence
- PyMuPDF / pdfplumber
- Django / FastAPI
- PostgreSQL
- Celery
- APIs SAP / Holded / custom ERP
Escenarios de aplicación
PDFs de proveedores con formatos distintos
Cada proveedor manda su factura con otro diseño. La extracción flexible puede normalizar campos clave antes de importar a contabilidad.
Partes de obra o albaranes en papel o foto
Información escrita a mano o escaneada que alguien transcribe al sistema. OCR + validación estructurada reduce tecleo y errores.
Contratos y fichas con campos repetitivos
Hay que comprobar cláusulas, fechas o datos identificativos en muchos documentos. Encaja extraer y comparar contra checklist, no leer uno a uno.
Errores habituales
- Importar a ERP sin validar duplicados
- Confiar al 100 % sin cola de revisión inicial
- Schema demasiado ambicioso en la primera versión
- Ignorar calidad de escaneo y fotos borrosas
- No guardar el documento fuente enlazado al registro
- Medir solo «documentos procesados», no precisión de campos
- No revisar el proyecto a los 90 días con métricas reales y ajustar o cerrar lo que no aporta.
Preguntas frecuentes
¿Funciona con facturas en otros idiomas?
Sí. Modelos multilingües manejan ES, EN, FR, DE. Validamos con muestra real de tus proveedores. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
¿Qué precisión es realista?
En facturas estándar, 85–95 % por campo con buen escaneo. Documentos muy variables requieren más revisión humana al inicio. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
¿Sustituye a mi software de contabilidad?
No. Alimenta tu ERP o contabilidad con datos estructurados. La lógica fiscal sigue en tu sistema. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
¿Cumple con requisitos de factura electrónica?
La extracción complementa Facturae, PDF y email. Para XML estructurado a veces basta parsear; la IA entra en lo no estructurado. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
¿Dónde se almacenan los documentos?
En tu infraestructura o bucket con cifrado. Retención según tu política y RGPD. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
¿Cuánto tarda un piloto?
3–4 semanas con un tipo documental (ej. facturas proveedor) y una integración de salida. Esto lo definimos en alcance según tus sistemas, volumen y restricciones legales —sin prometer cifras genéricas.
Guías relacionadas
¿Sigues tecleando datos de PDFs?
Envíame ejemplos anonimizados y te digo tasa de automatización esperable y arquitectura.