Piratage de livres pour entraîner une IA

Un cofondateur de Mistral a piraté des millions de livres : ce que l'on sait

Une enquête de Mediapart a révélé que Guillaume Lample, l'un des cofondateurs de Mistral AI, aurait piraté des millions de livres lorsqu'il travaillait chez Meta. Ces données auraient servi à entraîner des modèles d'intelligence artificielle. Ce cas illustre les questions éthiques complexes qui entourent l'entraînement des IA et soulève des interrogations sur les pratiques de l'industrie technologique.

Qui est Guillaume Lample ?

Guillaume Lample est un chercheur français en intelligence artificielle, aujourd'hui connu comme l'un des trois cofondateurs de Mistral AI, une startup française d'IA valorisée à plusieurs milliards d'euros. Avant de lancer sa propre entreprise en 2023, il a travaillé pendant environ dix ans chez Meta (la maison mère de Facebook), au sein du laboratoire de recherche en IA fondamentale (FAIR) dirigé à l'époque par le Français Yann Le Cun.

Les faits : un piratage massif chez Meta

Selon l'enquête de Mediapart publiée en décembre 2025, Guillaume Lample aurait activement participé au téléchargement illégal de millions de livres via la plateforme Library Genesis (LibGen), un site notoire pour le partage d'ouvrages protégés par le droit d'auteur sans autorisation. Ces téléchargements, commencés en octobre 2022, représenteraient au moins 70 téraoctets de données (soit 70 000 gigaoctets).

Les journalistes s'appuient sur plusieurs éléments pour étayer leurs affirmations : des extraits de code, des e-mails internes à Meta et des témoignages d'anciens salariés. Ces documents montreraient que Guillaume Lample n'a pas seulement participé à ces opérations, mais les aurait activement poussées pour rattraper le retard de Meta sur des concurrents comme OpenAI et son ChatGPT.

Le contexte : la course aux données pour l'IA

Pour entraîner leurs modèles d'intelligence artificielle, les entreprises technologiques ont besoin de quantités massives de données textuelles. Plus les données sont variées et abondantes, plus les modèles performants. Cependant, l'acquisition légale de ces données représente un coût considérable. Face à ce défi, certaines entreprises auraient opté pour des solutions plus rapides et économiques, mais légalement contestables.

Le cas de Meta n'est pas isolé. Aux États-Unis, plus de 70 procédures judiciaires opposent actuellement des artistes, écrivains, acteurs ou maisons d'édition aux géants de la tech pour l'utilisation non autorisée de leurs œuvres. Ces contentements révèlent une tension croissante entre les besoins des entreprises d'IA et le respect du droit d'auteur.

Implications légales et éthiques

Le piratage d'œuvres protégées pour entraîner des IA soulève des questions juridiques complexes. D'un point de vue légal, il s'agit clairement d'une violation du droit d'auteur. D'un point de vue éthique, cela pose problème quant à la juste rémunération des créateurs dont le travail est utilisé sans consentement ni compensation.

Le concept d'usage équitable en débat

Aux États-Unis, certains défendent l'idée que l'utilisation d'œuvres protégées pour entraîner des IA relèverait de l'usage équitable (fair use), car les modèles ne reproduisent pas directement les œuvres mais en apprennent les patterns statistiques. Cependant, cette interprétation est contestée par de nombreux créateurs et juristes. En Europe, le cadre juridique est plus strict, et l'AI Act récemment adopté renforce les obligations de transparence sur les données d'entraînement.

Position de Mistral AI

Il est important de noter que les accusations portent sur les activités de Guillaume Lample lorsqu'il travaillait chez Meta, et non sur ses pratiques au sein de Mistral AI. La startup française assure utiliser des données "de haute qualité" pour ses modèles, sans toutefois détailler précisément leurs origines. Cette affaire met néanmoins en lumière les pratiques passées d'un de ses fondateurs principaux.

Réactions et perspectives

Cette révélation intervient dans un contexte de prise de conscience croissante des enjeux éthiques de l'IA. En France, une proposition de loi transpartisane a été déposée au Sénat en décembre 2025 pour tenter de renverser la charge de la preuve en cas de litige : ce serait aux entreprises d'IA de prouver qu'elles n'ont pas utilisé de contenus protégés illégalement, plutôt qu'aux auteurs de prouver le contraire.

L'AI Act européen, entré en application progressive depuis 2025, impose de nouvelles obligations de transparence sur les données utilisées pour entraîner les modèles d'IA. Les entreprises devront notamment documenter les sources de leurs données d'entraînement et respecter les droits d'auteur. Cette régulation pourrait progressivement mettre fin aux pratiques les plus opaques de l'industrie.

Sources


Quel cofondateur de Mistral AI est accusé d'avoir piraté des millions de livres pour entraîner une IA ?

Guillaume Lample, chercheur français et cofondateur de Mistral AI, est accusé d'avoir piraté des millions de livres lorsqu'il travaillait chez Meta avant de fonder sa propre entreprise.

Quelle quantité de livres le cofondateur de Mistral AI est-il accusé d'avoir piratée ?

Selon l'enquête de Mediapart, au moins 70 téraoctets de données (70 000 gigaoctets) correspondant à des millions de livres auraient été téléchargés illégalement depuis la plateforme LibGen.

Les accusations de piratage de livres visent-elles l'activité actuelle de Mistral AI ?

Non, les faits reprochés datent de l'époque où Guillaume Lample travaillait chez Meta, avant la création de Mistral AI en 2023. L'entreprise française n'est pas directement mise en cause dans cette affaire.

Quelles sont les conséquences légales lorsque des livres sont piratés pour entraîner une intelligence artificielle ?

Le piratage d'œuvres protégées pour entraîner des IA constitue une violation du droit d'auteur. Plus de 70 procédures judiciaires sont en cours aux États-Unis, et l'Europe renforce sa régulation avec l'AI Act pour encadrer ces pratiques.

Comment l'Europe encadre-t-elle l'utilisation de données pour l'entraînement des intelligences artificielles ?

L'AI Act européen, entré en application progressive depuis 2025, impose aux entreprises d'IA de documenter les sources de leurs données d'entraînement et de respecter les droits d'auteur, renforçant ainsi la transparence et la conformité légale.

Sur le même sujet

ghibli image générée
Génération d'image "style Ghibli", décryptage de la polémique

La polémique autour des images IA façon Studio Ghibli

Depuis plusieurs mois, les réseaux sociaux regorgent d’images générées par intelligence artificielle dans le style visuel des films du Studio Ghibli. Si certaines séduisent par leur rendu enchanteur, d'autres soulèvent des critiques vives. Entre hommage, contrefaçon et inquiétude artistique, décryptons les enjeux de cette tendance.

Condamnation Musique

OpenAI perd un procès contre l'industrie musicale allemande

La justice allemande a rendu un verdict historique : OpenAI a été reconnue coupable d'avoir violé les droits d'auteur de chansons en utilisant des paroles protégées pour entraîner son modèle ChatGPT. Cette décision, prononcée par le tribunal régional de Munich le 11 novembre 2025, pourrait redéfinir les règles du jeu entre l'intelligence artificielle et les industries créatives. Voici une analyse détaillée de cette affaire et de ses conséquences potentielles.

banksy ia
Pourquoi les IA refusent de générer des images façon Banksy

Pourquoi je ne peux pas gérer d’image à la manière de Banksy avec l’IA ?

Vous avez peut-être tenté de créer une image « in the style of Banksy » avec une IA comme DALL·E, Midjourney ou Sora. Résultat ? Refus net ou images très neutres. Voici pourquoi ces outils bloquent (ou ignorent) vos requêtes quand elles mentionnent Banksy.

Entrainement Données personnelles
Utilisation des données WhatsApp et Messenger par l'IA de Meta

WhatsApp et Messenger utilisent-ils nos contenus pour entraîner leur IA ?

Chaque jour, des milliards de messages transitent par WhatsApp et Messenger. Ces applications, propriétés de Meta, sont au cœur de nos vies sociales. Mais dans la course effrénée à l'intelligence artificielle, une question cruciale se pose : que deviennent nos conversations ? Derrière les promesses de confidentialité se cache une réalité complexe et souvent méconnue. Démêlons ensemble le vrai du faux sur l'utilisation de vos données personnelles pour nourrir les IA de demain.

Droit à l'image Acteurs
Tilly Norwood et Briony Monroe

Tilly Norwood : une actrice écossaise accuse l'IA de lui avoir volé son visage et son jeu

En septembre 2025, l'arrivée de Tilly Norwood, une actrice entièrement générée par intelligence artificielle, faisait des vagues à Hollywood. Mais au-delà de la polémique sur l'avenir du métier d'acteur, une accusation plus personnelle a émergé : celle de Briony Monroe, une actrice écossaise qui affirme que son visage et son jeu ont été utilisés sans son consentement pour créer cette IA. Une affaire qui soulève des questions cruciales sur le droit à l'image, la propriété artistique et les limites éthiques de l'intelligence artificielle dans le monde du spectacle.

Sora 2 Rick et Morty
Sora 2 et les séries animées

Des épisodes de Rick et Morty ou de South Park créés avec Sora 2 posent question

Récemment, les réseaux sociaux ont vu apparaître des contenus étonnants : des séquences animées de Rick et Morty et South Park, générées par Sora 2, le modèle vidéo d'OpenAI. Ces créations, qui démontrent des capacités techniques remarquables, ont suscité des interrogations juridiques et éthiques pertinentes. Quelles perspectives s'ouvrent pour les créateurs, les plateformes et le public ?