
Un cofondateur de Mistral a piraté des millions de livres : ce que l'on sait
Une enquête de Mediapart a révélé que Guillaume Lample, l'un des cofondateurs de Mistral AI, aurait piraté des millions de livres lorsqu'il travaillait chez Meta. Ces données auraient servi à entraîner des modèles d'intelligence artificielle. Ce cas illustre les questions éthiques complexes qui entourent l'entraînement des IA et soulève des interrogations sur les pratiques de l'industrie technologique.
Qui est Guillaume Lample ?
Guillaume Lample est un chercheur français en intelligence artificielle, aujourd'hui connu comme l'un des trois cofondateurs de Mistral AI, une startup française d'IA valorisée à plusieurs milliards d'euros. Avant de lancer sa propre entreprise en 2023, il a travaillé pendant environ dix ans chez Meta (la maison mère de Facebook), au sein du laboratoire de recherche en IA fondamentale (FAIR) dirigé à l'époque par le Français Yann Le Cun.
Les faits : un piratage massif chez Meta
Selon l'enquête de Mediapart publiée en décembre 2025, Guillaume Lample aurait activement participé au téléchargement illégal de millions de livres via la plateforme Library Genesis (LibGen), un site notoire pour le partage d'ouvrages protégés par le droit d'auteur sans autorisation. Ces téléchargements, commencés en octobre 2022, représenteraient au moins 70 téraoctets de données (soit 70 000 gigaoctets).
Les journalistes s'appuient sur plusieurs éléments pour étayer leurs affirmations : des extraits de code, des e-mails internes à Meta et des témoignages d'anciens salariés. Ces documents montreraient que Guillaume Lample n'a pas seulement participé à ces opérations, mais les aurait activement poussées pour rattraper le retard de Meta sur des concurrents comme OpenAI et son ChatGPT.
Le contexte : la course aux données pour l'IA
Pour entraîner leurs modèles d'intelligence artificielle, les entreprises technologiques ont besoin de quantités massives de données textuelles. Plus les données sont variées et abondantes, plus les modèles performants. Cependant, l'acquisition légale de ces données représente un coût considérable. Face à ce défi, certaines entreprises auraient opté pour des solutions plus rapides et économiques, mais légalement contestables.
Le cas de Meta n'est pas isolé. Aux États-Unis, plus de 70 procédures judiciaires opposent actuellement des artistes, écrivains, acteurs ou maisons d'édition aux géants de la tech pour l'utilisation non autorisée de leurs œuvres. Ces contentements révèlent une tension croissante entre les besoins des entreprises d'IA et le respect du droit d'auteur.
Implications légales et éthiques
Le piratage d'œuvres protégées pour entraîner des IA soulève des questions juridiques complexes. D'un point de vue légal, il s'agit clairement d'une violation du droit d'auteur. D'un point de vue éthique, cela pose problème quant à la juste rémunération des créateurs dont le travail est utilisé sans consentement ni compensation.
Le concept d'usage équitable en débat
Aux États-Unis, certains défendent l'idée que l'utilisation d'œuvres protégées pour entraîner des IA relèverait de l'usage équitable (fair use), car les modèles ne reproduisent pas directement les œuvres mais en apprennent les patterns statistiques. Cependant, cette interprétation est contestée par de nombreux créateurs et juristes. En Europe, le cadre juridique est plus strict, et l'AI Act récemment adopté renforce les obligations de transparence sur les données d'entraînement.
Position de Mistral AI
Il est important de noter que les accusations portent sur les activités de Guillaume Lample lorsqu'il travaillait chez Meta, et non sur ses pratiques au sein de Mistral AI. La startup française assure utiliser des données "de haute qualité" pour ses modèles, sans toutefois détailler précisément leurs origines. Cette affaire met néanmoins en lumière les pratiques passées d'un de ses fondateurs principaux.
Réactions et perspectives
Cette révélation intervient dans un contexte de prise de conscience croissante des enjeux éthiques de l'IA. En France, une proposition de loi transpartisane a été déposée au Sénat en décembre 2025 pour tenter de renverser la charge de la preuve en cas de litige : ce serait aux entreprises d'IA de prouver qu'elles n'ont pas utilisé de contenus protégés illégalement, plutôt qu'aux auteurs de prouver le contraire.
L'AI Act européen, entré en application progressive depuis 2025, impose de nouvelles obligations de transparence sur les données utilisées pour entraîner les modèles d'IA. Les entreprises devront notamment documenter les sources de leurs données d'entraînement et respecter les droits d'auteur. Cette régulation pourrait progressivement mettre fin aux pratiques les plus opaques de l'industrie.
Sources
- Mediapart - Comment un cofondateur de Mistral AI a piraté des millions de livres : Enquête originale révélant l'affaire.
- Libération - Un des cofondateurs de Mistral AI accusé d'avoir piraté des millions de livres : Article de synthèse sur l'affaire.
- EU AI Act - Site officiel : Informations sur la régulation européenne de l'IA.
- CNIL - IA et RGPD : Recommandations de la CNIL sur l'IA et la protection des données.
Quel cofondateur de Mistral AI est accusé d'avoir piraté des millions de livres pour entraîner une IA ?
Guillaume Lample, chercheur français et cofondateur de Mistral AI, est accusé d'avoir piraté des millions de livres lorsqu'il travaillait chez Meta avant de fonder sa propre entreprise.
Quelle quantité de livres le cofondateur de Mistral AI est-il accusé d'avoir piratée ?
Selon l'enquête de Mediapart, au moins 70 téraoctets de données (70 000 gigaoctets) correspondant à des millions de livres auraient été téléchargés illégalement depuis la plateforme LibGen.
Les accusations de piratage de livres visent-elles l'activité actuelle de Mistral AI ?
Non, les faits reprochés datent de l'époque où Guillaume Lample travaillait chez Meta, avant la création de Mistral AI en 2023. L'entreprise française n'est pas directement mise en cause dans cette affaire.
Quelles sont les conséquences légales lorsque des livres sont piratés pour entraîner une intelligence artificielle ?
Le piratage d'œuvres protégées pour entraîner des IA constitue une violation du droit d'auteur. Plus de 70 procédures judiciaires sont en cours aux États-Unis, et l'Europe renforce sa régulation avec l'AI Act pour encadrer ces pratiques.
Comment l'Europe encadre-t-elle l'utilisation de données pour l'entraînement des intelligences artificielles ?
L'AI Act européen, entré en application progressive depuis 2025, impose aux entreprises d'IA de documenter les sources de leurs données d'entraînement et de respecter les droits d'auteur, renforçant ainsi la transparence et la conformité légale.





