La dette cachée de l’IA en entreprise : quand le token devient une faille d’architecture

L’engouement des directions informatiques pour les architectures RAG (Retrieval-Augmented Generation) est parfaitement légitime. Pouvoir interroger instantanément une décennie de documentation technique, extraire les lignes directrices d’un projet historique ou consolider des vagues de contrats épars a radicalement transformé l’accès à la connaissance interne.

By Ed Keisling Published on 27 juin 2026 12h48

Ai,technology,enhancing,seo,strategy,on,mobile,device,with,data — La dette cachée de l’IA en entreprise : quand le token devient une faille d’architecture - © Economie Matin

2000 MILLIARDS $D'ici 2030, le marché de l'intelligence artificielle devrait représenter près de 2000 milliards de dollars

Pourtant, à mesure que ces systèmes basculent du Proof of Concept (PoC) à la production industrielle, un point de friction critique émerge. Le problème ne vient pas des grands modèles de langage eux-mêmes, mais de l'infrastructure de données qui les alimente.

Ce goulet d'étranglement porte un nom : la gestion fine de l'économie des tokens.

Le token est la métrique brute du calcul logique des LLM. Chaque fragment de texte soumis au modèle consomme des ressources, génère de la latence et influence directement la pertinence de la réponse. Or, la réalité du terrain en production s'avère brutale. Pour quelques centaines de tokens réellement utiles en sortie, les systèmes d'entreprise en ingèrent souvent des dizaines de milliers en entrée. Ce ratio signal/bruit catastrophique représente le principal impensé des projets d'IA actuels.

Le problème naît d'une hypothèse trop commode, celle qu'il suffit de connecter un modèle directement aux sources de données de l'entreprise pour que la magie opère. Les connecteurs natifs vers SharePoint, Dropbox ou les bases documentaires internes sont séduisants en démonstration. En production, ils poussent dans la fenêtre de contexte du modèle des volumes bruts de contenu non structuré que le modèle doit lui-même trier, filtrer et interpréter à la volée. C'est exactement à rebours de ce qu'un système efficace devrait faire.

Le modèle se retrouve à faire un travail qui aurait dû être traité en amont, notamment celui de comprendre la structure d'un document, extraire les données utiles d'un tableau et séparer le contenu pertinent du bruit administratif. Pendant ce temps, la fenêtre de contexte se remplit de matière inutile, la précision se dégrade et les coûts d'infrastructure grimpent de manière disproportionnée. Ce n'est pas une limitation des modèles, c'est un défaut d'architecture.

La réponse à ce problème passe par un changement de paradigme en cessant de traiter les données comme des fichiers à récupérer, et commencer à les traiter comme une connaissance à préparer.

Dans une architecture agentique mature, des agents spécialisés interviennent en amont, avant même qu'une requête soit formulée. Leur rôle n'est pas de répondre à des questions, mais de rendre la connaissance utilisable. Ils classifient les contenus, extraient les structures, enrichissent les métadonnées, génèrent des résumés contextuels et cartographient les relations entre les silos. Un PDF numérisé nécessite de la reconnaissance optique de caractères. Une vidéo nécessite une transcription segmentée. Un tableur nécessite une interprétation sémantique, pas une extraction de texte brute. Quand un agent de raisonnement interroge enfin le système, le travail coûteux a déjà été fait. Le modèle peut se concentrer sur la synthèse et la décision plutôt que sur le déchiffrage documentaire.

Cette approche résout également un second problème que les équipes sous-estiment. Il s'agit de la gouvernance. Lorsque des agents autonomes opèrent sur plusieurs sources simultanément, la question de la traçabilité devient critique. D'où vient telle information synthétisée ? Qui avait accès à telle source au moment du traitement ? Les connecteurs directs échouent fréquemment à reproduire fidèlement les contrôles d'accès existants, exposant des données sensibles ou, à l'inverse, produisant des systèmes tellement restrictifs qu'ils perdent toute utilité opérationnelle. Une couche de connaissance structurée agit comme un proxy de confiance. Elle fait respecter les permissions avant que le contenu n'atteigne le modèle, tout en maintenant une traçabilité exploitable par les équipes juridiques, sécurité et conformité.

La bonne nouvelle, c'est que les solutions existent et que les principes architecturaux sont aujourd'hui suffisamment documentés pour guider des déploiements sérieux. L'orchestration consciente des tokens, qui consiste à router les tâches de validation et d'extraction vers des modèles plus légers et moins coûteux, en réservant les modèles de raisonnement avancés aux synthèses complexes, est l'une des leviers les plus efficaces pour contrôler les coûts sans sacrifier la qualité. De même, déplacer l'ingestion multimodale en traitement de fond permet d'intégrer pleinement les contenus non structurés dans le système de connaissance, plutôt que de les laisser comme des angles morts.

La vraie question pour les organisations qui engagent leur stratégie IA n'est pas de savoir si elles auront besoin de gérer sérieusement leurs tokens. Elles en auront besoin. La question est de savoir si elles anticiperont cette exigence dans leur architecture initiale, ou si elles la découvriront après avoir absorbé les coûts, les dégradations de performance et les incidents de gouvernance qui accompagnent invariablement les raccourcis. Construire un système de connaissance agentique, c'est un engagement organisationnel. Le traiter comme un branchement de connecteurs, c'est repousser la dette sans l'effacer.

Ed Keisling

Chief AI Officer chez Progress Software

Vous allez aimer aussi :

OpenAI : le grand projet de Sam Altman et Jony Ive bat de l’aile
- Ecoquick
- Actualité
- Consommation
- Culture
- intelligence artificielle
- International
- Tech
Selon le Financial Times, OpenAI peine à transformer son ambitieux projet matériel conçu avec Jony Ive en produit concret. Retards techniques, débats sur la vie privée et incertitudes industrielles freinent une initiative censée incarner la…

Paolo Garoscio 06/10/25
Intelligence artificielle : Anthropic accuse Alibaba de vol
- Eco Digest
- Asie
- Bourse
- Entreprises
- États-Unis
- Finance
- International
- Marchés
- Tech
- Technologie
Anthropic accuse Alibaba d'avoir orchestré l'extraction illégale de 29 millions d'échanges avec son modèle Claude via des milliers de comptes frauduleux. Un préjudice évalué en centaines de milliards de dollars qui menace la valorisation des…

Anton Kunin 26/06/26

VIP EXPERTS

Positive Aviation relance l’hydraviation industrielle en Europe avec le FF72, une alternative souveraine au Canadair
- VIP Experts
- Industrie
- Les Experts
- Politique
La création de Positive Aviation trouve son origine dans un constat simple : alors que la menace des feux de forêt s’accélère partout dans le monde, les moyens aériens spécialisés peinent à suivre cette évolution.

Interviews 12/06/26
Coupe du Monde 2026 : quand le football génère jusqu’à un pétaoctet de données par match
- VIP Experts
- Actualité
- Actualité Économique
- Les Experts
- Numérique
Interview de Peter Pugh-Jones, Field CDO chez Confluent, sur la révolution des données en temps réel dans le football. La Coupe du Monde 2026 illustre la transformation du sport européen vers un modèle d'entertainment technologique…

Interviews 12/06/26
IA : « Il faut un consensus mondial mais la France est mal armée », alerte un expert
- VIP Experts
- Innovation technologique
- intelligence artificielle
- Les Experts
Dans cette interview, Jean-François Deldon, CEO de Yakadata, analyse les défis de la régulation mondiale de l'IA proposée par Anthropic. L'expert alerte sur les difficultés techniques inédites et le retard européen face aux géants américains.

Interviews 12/06/26