Publié le 25/12/2025

Un cofondateur de Mistral a piraté des millions de livres : ce que l'on sait

Une enquête de Mediapart a révélé que Guillaume Lample, l'un des cofondateurs de Mistral AI, aurait piraté des millions de livres lorsqu'il travaillait chez Meta. Ces données auraient servi à entraîner des modèles d'intelligence artificielle. Ce cas illustre les questions éthiques complexes qui entourent l'entraînement des IA et soulève des interrogations sur les pratiques de l'industrie technologique.

Qui est Guillaume Lample ?

Guillaume Lample est un chercheur français en intelligence artificielle, aujourd'hui connu comme l'un des trois cofondateurs de Mistral AI, une startup française d'IA valorisée à plusieurs milliards d'euros. Avant de lancer sa propre entreprise en 2023, il a travaillé pendant environ dix ans chez Meta (la maison mère de Facebook), au sein du laboratoire de recherche en IA fondamentale (FAIR) dirigé à l'époque par le Français Yann Le Cun.

Les faits : un piratage massif chez Meta

Selon l'enquête de Mediapart publiée en décembre 2025, Guillaume Lample aurait activement participé au téléchargement illégal de millions de livres via la plateforme Library Genesis (LibGen), un site notoire pour le partage d'ouvrages protégés par le droit d'auteur sans autorisation. Ces téléchargements, commencés en octobre 2022, représenteraient au moins 70 téraoctets de données (soit 70 000 gigaoctets).

Les journalistes s'appuient sur plusieurs éléments pour étayer leurs affirmations : des extraits de code, des e-mails internes à Meta et des témoignages d'anciens salariés. Ces documents montreraient que Guillaume Lample n'a pas seulement participé à ces opérations, mais les aurait activement poussées pour rattraper le retard de Meta sur des concurrents comme OpenAI et son ChatGPT.

Le contexte : la course aux données pour l'IA

Pour entraîner leurs modèles d'intelligence artificielle, les entreprises technologiques ont besoin de quantités massives de données textuelles. Plus les données sont variées et abondantes, plus les modèles performants. Cependant, l'acquisition légale de ces données représente un coût considérable. Face à ce défi, certaines entreprises auraient opté pour des solutions plus rapides et économiques, mais légalement contestables.

Le cas de Meta n'est pas isolé. Aux États-Unis, plus de 70 procédures judiciaires opposent actuellement des artistes, écrivains, acteurs ou maisons d'édition aux géants de la tech pour l'utilisation non autorisée de leurs œuvres. Ces contentements révèlent une tension croissante entre les besoins des entreprises d'IA et le respect du droit d'auteur.

Implications légales et éthiques

Le piratage d'œuvres protégées pour entraîner des IA soulève des questions juridiques complexes. D'un point de vue légal, il s'agit clairement d'une violation du droit d'auteur. D'un point de vue éthique, cela pose problème quant à la juste rémunération des créateurs dont le travail est utilisé sans consentement ni compensation.

Le concept d'usage équitable en débat

Aux États-Unis, certains défendent l'idée que l'utilisation d'œuvres protégées pour entraîner des IA relèverait de l'usage équitable (fair use), car les modèles ne reproduisent pas directement les œuvres mais en apprennent les patterns statistiques. Cependant, cette interprétation est contestée par de nombreux créateurs et juristes. En Europe, le cadre juridique est plus strict, et l'AI Act récemment adopté renforce les obligations de transparence sur les données d'entraînement.

Position de Mistral AI

Il est important de noter que les accusations portent sur les activités de Guillaume Lample lorsqu'il travaillait chez Meta, et non sur ses pratiques au sein de Mistral AI. La startup française assure utiliser des données "de haute qualité" pour ses modèles, sans toutefois détailler précisément leurs origines. Cette affaire met néanmoins en lumière les pratiques passées d'un de ses fondateurs principaux.

Réactions et perspectives

Cette révélation intervient dans un contexte de prise de conscience croissante des enjeux éthiques de l'IA. En France, une proposition de loi transpartisane a été déposée au Sénat en décembre 2025 pour tenter de renverser la charge de la preuve en cas de litige : ce serait aux entreprises d'IA de prouver qu'elles n'ont pas utilisé de contenus protégés illégalement, plutôt qu'aux auteurs de prouver le contraire.

L'AI Act européen, entré en application progressive depuis 2025, impose de nouvelles obligations de transparence sur les données utilisées pour entraîner les modèles d'IA. Les entreprises devront notamment documenter les sources de leurs données d'entraînement et respecter les droits d'auteur. Cette régulation pourrait progressivement mettre fin aux pratiques les plus opaques de l'industrie.

Sources

Mediapart - Comment un cofondateur de Mistral AI a piraté des millions de livres : Enquête originale révélant l'affaire.
Libération - Un des cofondateurs de Mistral AI accusé d'avoir piraté des millions de livres : Article de synthèse sur l'affaire.
EU AI Act - Site officiel : Informations sur la régulation européenne de l'IA.
CNIL - IA et RGPD : Recommandations de la CNIL sur l'IA et la protection des données.

Quel cofondateur de Mistral AI est accusé d'avoir piraté des millions de livres pour entraîner une IA ?

Guillaume Lample, chercheur français et cofondateur de Mistral AI, est accusé d'avoir piraté des millions de livres lorsqu'il travaillait chez Meta avant de fonder sa propre entreprise.

Quelle quantité de livres le cofondateur de Mistral AI est-il accusé d'avoir piratée ?

Selon l'enquête de Mediapart, au moins 70 téraoctets de données (70 000 gigaoctets) correspondant à des millions de livres auraient été téléchargés illégalement depuis la plateforme LibGen.

Les accusations de piratage de livres visent-elles l'activité actuelle de Mistral AI ?

Non, les faits reprochés datent de l'époque où Guillaume Lample travaillait chez Meta, avant la création de Mistral AI en 2023. L'entreprise française n'est pas directement mise en cause dans cette affaire.

Quelles sont les conséquences légales lorsque des livres sont piratés pour entraîner une intelligence artificielle ?

Le piratage d'œuvres protégées pour entraîner des IA constitue une violation du droit d'auteur. Plus de 70 procédures judiciaires sont en cours aux États-Unis, et l'Europe renforce sa régulation avec l'AI Act pour encadrer ces pratiques.

Comment l'Europe encadre-t-elle l'utilisation de données pour l'entraînement des intelligences artificielles ?

L'AI Act européen, entré en application progressive depuis 2025, impose aux entreprises d'IA de documenter les sources de leurs données d'entraînement et de respecter les droits d'auteur, renforçant ainsi la transparence et la conformité légale.

Un cofondateur de Mistral a piraté des millions de livres : ce que l'on sait

Qui est Guillaume Lample ?

Les faits : un piratage massif chez Meta

Le contexte : la course aux données pour l'IA

Implications légales et éthiques

Le concept d'usage équitable en débat

Position de Mistral AI

Réactions et perspectives

Sources

Sur le même sujet

La polémique autour des images IA façon Studio Ghibli

OpenAI perd un procès contre l'industrie musicale allemande

Pourquoi je ne peux pas gérer d’image à la manière de Banksy avec l’IA ?

WhatsApp et Messenger utilisent-ils nos contenus pour entraîner leur IA ?

Tilly Norwood : une actrice écossaise accuse l'IA de lui avoir volé son visage et son jeu

Des épisodes de Rick et Morty ou de South Park créés avec Sora 2 posent question