RAG : que l'IA réponde avec vos documents, en citant la source
Sans RAG, le modèle invente. Avec un RAG bien fait, il recherche dans votre connaissance, cite le paragraphe et dit « je ne sais pas » lorsqu'il n'y a pas d'évidence.
Le problème
Votre entreprise possède des années de documentation : manuels techniques, contrats, propositions commerciales, procédures internes, procès-verbaux et politiques. Mais trouver la bonne réponse reste une recherche dans des dossiers, des questions sur Slack ou des interruptions de collègues qui « savent ».
Les LLM génériques répondent avec assurance même s'ils n'ont pas vos données. Ils demandent à ChatGPT quelque chose sur votre produit et obtiennent une réponse plausible mais fausse. Cela génère des réclamations en support externe ; en juridique ou conformité, c'est un risque réel.
Les moteurs de recherche classiques renvoient des liens, pas des réponses. L'employé ouvre dix PDFs pour trouver un paragraphe. Le temps perdu se multiplie par chaque requête répétée en ventes, support et ingénierie.
Télécharger tous les PDFs dans un chat « entreprise » sans architecture échoue souvent : documents obsolètes, permissions mal configurées, réponses sans citation et sans moyen d'auditer quel fragment a été utilisé par le modèle.
RAG n'est pas de la magie. Mal implémenté —chunks courts, embeddings bon marché, sans contrôle d'accès— il continue d'halluciner ou filtre des informations confidentielles à l'utilisateur erroné.
Le coût de « ne pas trouver » est également mesurable : propositions commerciales qui prennent des jours parce que personne ne localise le cas similaire, ingénieurs qui réimplémentent des solutions déjà documentées, audits qui échouent à cause d'une version incorrecte de la procédure.
De nombreuses entreprises ont essayé de « télécharger des PDFs dans ChatGPT ». Cela fonctionne pour un test ; en production, cela échoue à cause des limites de contexte, sans permissions granulaires et sans moyen de savoir si la réponse provient du manuel de 2021 ou de 2024.
Le changement organisationnel est important : support, IT et business doivent s'accorder sur ce qui est automatisé et ce qui nécessite un jugement humain. Sans cet accord, le projet génère des frictions internes même si la technologie fonctionne.
La connaissance tribale dans Slack ou Teams n'est pas indexée : des décisions importantes n'ont jamais été intégrées au PDF officiel. RAG sans culture de documentation reste incomplet.
Multilingue : manuels en anglais et requêtes en espagnol nécessitent des embeddings et un reranking qui ne supposent pas une seule langue.
Des documents scannés de mauvaise qualité réduisent la précision de manière brutale. Investir dans une numérisation native ou un OCR de qualité avant RAG évite la frustration.
RUMAZA ne vend pas de licences : construit un système que vous pouvez mesurer, maintenir et étendre. Si le cœur du problème n'est pas automatisable avec les données disponibles, nous vous le dirons lors de la première réunion —économie de mois et de budget.
Propriété intellectuelle et confidentialité : les contrats avec des clauses de non-divulgation exigent que l'index vive dans une infrastructure contrôlée et avec un chiffrement au repos.
Réponses contradictoires entre deux documents : le système doit signaler un conflit ou prioriser la version en vigueur par métadonnées de date.
Comparer trois devis sans spécification commune est inutile : portée, intégrations et métriques d'acceptation doivent être identiques pour décider de manière éclairée.
Sans propriétaire du corpus documentaire, l'index se dégrade en six mois. Désigner un responsable par domaine qui valide les ajouts et suppressions de documents.
Itération avec des données réelles de la première quinzaine en production : ajustement des seuils, prompts et règles avec des métriques du client, pas des suppositions du laboratoire.
Le succès du projet se définit lors de la réunion de lancement : volume de base, temps actuel par cas, taux d'erreur manuel et coût horaire —avec cela, nous calculons le ROI avant d'écrire une ligne de code.
Formation à la clôture : nous ne livrons pas un logiciel que seul le service IT comprend. L'utilisateur métier sait utiliser, étendre et signaler des incidents avec des captures et des exemples réels de son quotidien.
Qu'est-ce que RAG (sans fumée)
RAG (Retrieval Augmented Generation) est une architecture : lorsqu'une question arrive, le système recherche les fragments les plus pertinents dans votre base documentaire, les injecte comme contexte dans le modèle de langage et ce dernier rédige la réponse en se basant uniquement sur ce matériel.
Le flux technique : ingestion de documents → découpage (chunking) → embeddings → index vectoriel → recherche sémantique → reranking → prompt avec contexte → réponse avec citations.
La clé n'est pas le modèle le plus cher. C'est la qualité de l'index : documents à jour, métadonnées (version, département, permissions), découpage adéquat et évaluation continue de la précision.
RAG permet de dire « selon le manuel v3.2, section 4.1… » avec lien vers le PDF original. S'il n'y a pas suffisamment d'évidence, le système répond qu'il ne trouve pas d'informations —comportement à concevoir explicitement.
Il se combine avec un contrôle d'accès : un commercial ne voit pas les contrats des RH ; un externe ne voit rien d'interne. Les permissions vivent dans l'index, pas seulement dans l'interface.
Composants qui font la différence : reranking (réordonner les fragments récupérés), hybride mot-clé + vectoriel, filtrage par métadonnées par département et évaluation continue avec des questions d'utilisateurs réels.
RAG ne remplace pas l'expert sur des sujets critiques ; il réduit la friction dans la recherche. L'ingénieur senior continue de valider ; mais il trouve la section pertinente en quelques secondes au lieu d'ouvrir quinze PDFs.
Coût opérationnel : embeddings + stockage + requêtes. Dans des corpus de milliers de documents, cela reste des ordres de grandeur moins cher que des heures de salaire à chercher mal.
Déploiement progressif : pilote avec un canal ou un type de requête, mesure pendant deux semaines, élargissement par données —pas de big bang qui surcharge l'équipe et le client.
Le chunking intelligent respecte les sections, tableaux et listes numérotées. Découper à l'aveugle casse les tableaux de prix et génère des réponses incorrectes.
Le cache de requêtes fréquentes réduit le coût et la latence sans sacrifier la mise à jour lorsque le document source change.
Grounding strict : le prompt oblige à citer un fragment ou à répondre qu'il n'y a pas d'informations. Configuration par défaut chez RUMAZA, non optionnelle.
Critère RUMAZA : problème concret, donnée accessible, métrique de succès et portée fermée. Sans ces quatre piliers, il n'y a pas de projet —il y a un expérience qui facture bien au consultant et mal au client.
Tableaux et figures dans les PDF nécessitent une extraction spéciale ; parfois hybride avec recherche par page et légende pour ne pas perdre des chiffres critiques.
API pour tiers : d'autres systèmes consomment la recherche sémantique sans passer par le chat —utile pour les portails internes.
La maintenance évolutive —nouveaux intents, fournisseurs, langues— est budgétisée séparément du MVP pour éviter les surprises et les projets zombies.
La recherche hybride lexicale + vectorielle améliore le rappel dans les codes de produit, SKU et références légales exactes.
Support post-lancement avec canal direct et SLA convenu : incidents critiques en horaires de travail résolus dans la journée —pas de ticket éternel.
Nous documentons les hypothèses, les limites connues et le plan d'élargissement lors de la livraison —transparence totale sur ce que fait le système aujourd'hui et ce qui reste pour une phase deux si les chiffres le justifient.
Architecture prête à s'élargir : nouveaux canaux, langues ou documents sans tout refaire depuis zéro —extension modulaire, pas monolithe fragile.
Alignement avec la sécurité et le juridique dès la conception : DPIA quand cela s'applique, enregistrement des activités de traitement et clauses avec sous-traitants de modèles cloud.
Quand cela a-t-il du sens
- Plus de 100 documents que l'équipe consulte quotidiennement —avec un volume et des données qui le justifient.
- Réponses incorrectes dues à des informations obsolètes ou inexistantes —avec un volume et des données qui le justifient.
- Onboarding lent parce que « c'est quelque part » —avec un volume et des données qui le justifient.
- Support technique avec manuels étendus et versions multiples —avec un volume et des données qui le justifient.
- Vous devez citer une source pour conformité ou audit —avec un volume et des données qui le justifient.
- Vous souhaitez un copilote interne avant un agent avec actions —avec un volume et des données qui le justifient.
Que peut-on construire
Assistant de documentation technique
Les ingénieurs posent des questions en langage naturel ; le système recherche dans les manuels et fiches, répond avec des citations et lie au PDF. Inclut des logs, des seuils de confiance et une révision humaine dans la phase initiale jusqu'à calibrer les métriques en production.
Copilote commercial
Recherche dans les propositions gagnées, cas de succès et tarification interne. Accélère les brouillons sans inventer de conditions. Inclut des logs, des seuils de confiance et une révision humaine dans la phase initiale jusqu'à calibrer les métriques en production.
FAQ intelligente pour le support
Les agents consultent les politiques et procédures ; réponse unifiée avec la version en vigueur du document. Inclut des logs, des seuils de confiance et une révision humaine dans la phase initiale jusqu'à calibrer les métriques en production.
Moteur de recherche sémantique d'entreprise
Remplace ou complète la recherche par mots-clés avec compréhension de l'intention et filtres par domaine et date. Inclut des logs, des seuils de confiance et une révision humaine dans la phase initiale jusqu'à calibrer les métriques en production.
Comment RUMAZA le construirait
Technologies possibles
- Python
- LangChain / LlamaIndex
- OpenAI / Anthropic embeddings
- PostgreSQL + pgvector
- Pinecone / Weaviate
- Unstructured / PyMuPDF
- FastAPI
- Redis
Scénarios d'application
Documentation interne difficile à trouver
Manuels, politiques, contrats types et procédures dans des dossiers ou PDFs. RAG aide à rechercher par signification, pas seulement par nom de fichier.
Versions mélangées du même document
Plusieurs personnes conservent « le bon modèle » à des endroits différents. Il est pertinent d'indexer uniquement les sources officielles et de marquer la validité avant de répondre.
Onboarding lent de nouveaux employés
Questions répétées sur comment faire X dans l'entreprise. Un assistant sur la documentation interne réduit la dépendance à une seule personne experte.
Erreurs habituelles
- Indexer tout sans nettoyer les versions obsolètes
- Chunks trop petits ou trop grands qui perdent le contexte
- Ne pas évaluer avec des questions réelles du business
- Ignorer les permissions : même index pour tous les rôles
- Faire confiance à la réponse sans montrer de citations à l'utilisateur
- Ne pas planifier le réindexage lorsque des documents critiques changent
- Ne pas réviser le projet après 90 jours avec des métriques réelles et ajuster ou fermer ce qui n'apporte pas.
Questions fréquentes
RAG remplace-t-il l'entraînement d'un modèle propre ?
Dans la plupart des cas d'entreprise, oui. C'est moins cher, actualisable et auditable que le fine-tuning pour la connaissance documentaire. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
Fonctionne-t-il avec des PDF scannés ?
Oui, avec un OCR de qualité. Cela augmente le coût d'ingestion et peut réduire la précision. Nous privilégions les sources avec texte natif. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
Quelle précision puis-je attendre ?
Cela dépend de la qualité documentaire. Avec un bon pipeline, 70–85 % sur des questions bien ciblées. Nous le mesurons lors de l'évaluation, nous ne promettons pas 99 %. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
Les données sortent-elles de mon serveur ?
Nous pouvons utiliser des modèles cloud avec DPA ou des modèles locaux si la politique l'exige. L'index vectoriel peut vivre dans votre infrastructure. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
Combien de temps faut-il pour être opérationnel ?
MVP avec un corpus limité : 4–6 semaines. Inclut ingestion, index, interface de base et évaluation initiale. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
S'intègre-t-il avec SharePoint ou Google Drive ?
Oui. Connecteurs pour synchroniser et réindexer lorsque des fichiers changent. Nous définissons cela dans la portée selon vos systèmes, volume et restrictions légales —sans promettre de chiffres génériques.
Guides associés
Votre équipe perd des heures à chercher dans des documents ?
Dites-moi quelles sources vous avez et qui pose des questions. Je vous propose une architecture RAG avec une portée mesurable.