Meta assume le piratage de livres pour entraîner son IA

Un nouvel épisode judiciaire relance la controverse autour de l’entraînement de l’IA. Dans une procédure en cours aux États-Unis, Meta reconnaît avoir utilisé des livres piratés pour nourrir les modèles de son IA, notamment ceux de la famille Llama. L’entreprise ne nie pas les faits. Au contraire, elle affirme que cette pratique relève du fair use, une exception du droit d’auteur américain. Plus surprenant encore, Meta soutient que le partage automatique de ces œuvres via BitTorrent pendant leur téléchargement serait lui aussi couvert par cette même logique juridique.

L’IA de Meta au cœur d’un vaste conflit sur les livres piratés

Depuis 2023, Meta est poursuivie par plusieurs auteurs qui accusent l’entreprise d’avoir utilisé des copies piratées de leurs ouvrages pour entraîner son IA. Parmi eux figurent notamment Richard Kadrey et Sarah Silverman. Ces derniers affirment que leurs livres ont été aspirés depuis des bibliothèques pirates en ligne pour alimenter les modèles linguistiques de la société. Selon les plaignants, Meta a exploité des copies intégrales d’ouvrages protégés sans demander d’autorisation ni rémunérer les ayants droit.

Dans leur argumentation judiciaire, les auteurs affirment que « Meta voulait des livres pour leur contenu expressif — précisément l’objet que le droit d’auteur protège », avant d’ajouter : « Mais au lieu de payer les titulaires de droits, Meta a systématiquement pris et injecté des copies intégrales d’œuvres piratées dans ses LLM afin d’en extraire ce contenu expressif sans avoir à payer », selon Reuters. Les documents judiciaires révèlent l’ampleur du phénomène. Meta aurait téléchargé d’énormes volumes de données provenant de bibliothèques pirates comme LibGen ou Z-Library. Des preuves versées au dossier indiquent notamment que l’entreprise aurait récupéré plus de 81,7 téraoctets de données issues de bibliothèques illégales pour entraîner son IA, selon Cybernews. Ces volumes représentent potentiellement plusieurs millions d’ouvrages utilisés pour alimenter les algorithmes.

Meta invoque le fair use pour justifier l’entraînement de son IA

Face aux accusations, Meta ne conteste pas avoir utilisé ces contenus. L’entreprise affirme plutôt que l’entraînement d’une IA constitue un usage transformateur, et donc protégé par la doctrine du fair use. Selon la société, les livres ne sont pas reproduits pour concurrencer les œuvres originales, mais pour améliorer les capacités de son IA. Dans ses arguments juridiques, Meta explique ainsi que son IA sert notamment à « Servir de tuteur personnel sur presque tous les sujets, aider à la génération d’idées créatives et permettre aux utilisateurs de produire des rapports d’entreprise, traduire des conversations, analyser des données, écrire du code et composer des poèmes ou des lettres à des amis », tout en précisant : « Ce qu’elle ne fait pas, c’est reproduire les livres des plaignants ni se substituer à leur lecture », selon Reuters.

Cette défense a déjà trouvé un certain écho devant la justice américaine. En juin 2025, un juge fédéral a accordé un jugement partiel favorable à Meta, estimant que les auteurs n’avaient pas démontré un préjudice économique suffisant lié à l’entraînement de l’IA. La décision a estimé que cet usage pouvait être considéré comme hautement transformateur, selon les éléments du dossier judiciaire rapportés par plusieurs médias spécialisés. Toutefois, ce jugement ne règle pas tous les aspects du litige. Le tribunal a précisé que cette décision ne signifie pas que toutes les utilisations d’œuvres protégées par Meta sont légales. La question de la redistribution des fichiers piratés via BitTorrent reste notamment examinée dans le cadre de la procédure.

BitTorrent et l’IA : la défense controversée de Meta

Le point le plus polémique concerne précisément l’utilisation du protocole BitTorrent pour récupérer ces livres. Dans de nouveaux documents transmis à la justice américaine, Meta soutient que le partage automatique des fichiers avec d’autres internautes n’est pas un acte volontaire distinct du téléchargement. Selon l’entreprise, ce partage est inhérent au fonctionnement même du protocole BitTorrent. Lorsqu’un utilisateur télécharge un fichier, il en redistribue simultanément des fragments à d’autres participants du réseau. Pour Meta, ces échanges techniques devraient donc être couverts par la même logique juridique que le téléchargement initial. La société affirme ainsi que les copies générées et partagées pendant ce processus font partie du mécanisme nécessaire pour obtenir les données destinées à entraîner son IA.

L’entreprise considère que ces échanges relèvent du fair use puisque l’objectif final est l’entraînement d’un modèle d’intelligence artificielle. Cette position intervient dans un contexte où l’utilisation de bibliothèques pirates pour l’entraînement de l’IA devient un sujet central dans l’industrie. Des archives comme Library Genesis contiennent environ 7,5 millions de livres et plus de 81 millions d’articles scientifiques, selon une enquête citée par Gizmodo et The Atlantic. Par ailleurs, ces bases de données alimentent un nombre croissant de systèmes d’IA. De nombreuses entreprises technologiques sont aujourd’hui poursuivies pour avoir utilisé des œuvres protégées afin d’entraîner leurs modèles. Des procès similaires visent notamment OpenAI, Anthropic ou Nvidia, dans un débat qui dépasse désormais largement le seul cas de Meta.