L’engouement des directions informatiques pour les architectures RAG (Retrieval-Augmented Generation) est parfaitement légitime. Pouvoir interroger instantanément une décennie de documentation technique, extraire les lignes directrices d’un projet historique ou consolider des vagues de contrats épars a radicalement transformé l’accès à la connaissance interne.
La dette cachée de l’IA en entreprise : quand le token devient une faille d’architecture

Pourtant, à mesure que ces systèmes basculent du Proof of Concept (PoC) à la production industrielle, un point de friction critique émerge. Le problème ne vient pas des grands modèles de langage eux-mêmes, mais de l'infrastructure de données qui les alimente.
Ce goulet d'étranglement porte un nom : la gestion fine de l'économie des tokens.
Le token est la métrique brute du calcul logique des LLM. Chaque fragment de texte soumis au modèle consomme des ressources, génère de la latence et influence directement la pertinence de la réponse. Or, la réalité du terrain en production s'avère brutale. Pour quelques centaines de tokens réellement utiles en sortie, les systèmes d'entreprise en ingèrent souvent des dizaines de milliers en entrée. Ce ratio signal/bruit catastrophique représente le principal impensé des projets d'IA actuels.
Le problème naît d'une hypothèse trop commode, celle qu'il suffit de connecter un modèle directement aux sources de données de l'entreprise pour que la magie opère. Les connecteurs natifs vers SharePoint, Dropbox ou les bases documentaires internes sont séduisants en démonstration. En production, ils poussent dans la fenêtre de contexte du modèle des volumes bruts de contenu non structuré que le modèle doit lui-même trier, filtrer et interpréter à la volée. C'est exactement à rebours de ce qu'un système efficace devrait faire.
Le modèle se retrouve à faire un travail qui aurait dû être traité en amont, notamment celui de comprendre la structure d'un document, extraire les données utiles d'un tableau et séparer le contenu pertinent du bruit administratif. Pendant ce temps, la fenêtre de contexte se remplit de matière inutile, la précision se dégrade et les coûts d'infrastructure grimpent de manière disproportionnée. Ce n'est pas une limitation des modèles, c'est un défaut d'architecture.
La réponse à ce problème passe par un changement de paradigme en cessant de traiter les données comme des fichiers à récupérer, et commencer à les traiter comme une connaissance à préparer.
Dans une architecture agentique mature, des agents spécialisés interviennent en amont, avant même qu'une requête soit formulée. Leur rôle n'est pas de répondre à des questions, mais de rendre la connaissance utilisable. Ils classifient les contenus, extraient les structures, enrichissent les métadonnées, génèrent des résumés contextuels et cartographient les relations entre les silos. Un PDF numérisé nécessite de la reconnaissance optique de caractères. Une vidéo nécessite une transcription segmentée. Un tableur nécessite une interprétation sémantique, pas une extraction de texte brute. Quand un agent de raisonnement interroge enfin le système, le travail coûteux a déjà été fait. Le modèle peut se concentrer sur la synthèse et la décision plutôt que sur le déchiffrage documentaire.
Cette approche résout également un second problème que les équipes sous-estiment. Il s'agit de la gouvernance. Lorsque des agents autonomes opèrent sur plusieurs sources simultanément, la question de la traçabilité devient critique. D'où vient telle information synthétisée ? Qui avait accès à telle source au moment du traitement ? Les connecteurs directs échouent fréquemment à reproduire fidèlement les contrôles d'accès existants, exposant des données sensibles ou, à l'inverse, produisant des systèmes tellement restrictifs qu'ils perdent toute utilité opérationnelle. Une couche de connaissance structurée agit comme un proxy de confiance. Elle fait respecter les permissions avant que le contenu n'atteigne le modèle, tout en maintenant une traçabilité exploitable par les équipes juridiques, sécurité et conformité.
La bonne nouvelle, c'est que les solutions existent et que les principes architecturaux sont aujourd'hui suffisamment documentés pour guider des déploiements sérieux. L'orchestration consciente des tokens, qui consiste à router les tâches de validation et d'extraction vers des modèles plus légers et moins coûteux, en réservant les modèles de raisonnement avancés aux synthèses complexes, est l'une des leviers les plus efficaces pour contrôler les coûts sans sacrifier la qualité. De même, déplacer l'ingestion multimodale en traitement de fond permet d'intégrer pleinement les contenus non structurés dans le système de connaissance, plutôt que de les laisser comme des angles morts.
La vraie question pour les organisations qui engagent leur stratégie IA n'est pas de savoir si elles auront besoin de gérer sérieusement leurs tokens. Elles en auront besoin. La question est de savoir si elles anticiperont cette exigence dans leur architecture initiale, ou si elles la découvriront après avoir absorbé les coûts, les dégradations de performance et les incidents de gouvernance qui accompagnent invariablement les raccourcis. Construire un système de connaissance agentique, c'est un engagement organisationnel. Le traiter comme un branchement de connecteurs, c'est repousser la dette sans l'effacer.
