
Reddit attaque Perplexity : la bataille judiciaire pour les données de l'IA
La plateforme Reddit a officiellement lancé une offensive judiciaire majeure en déposant une plainte contre quatre entreprises, dont le moteur de recherche IA Perplexity. L'accusation : exploitation illégale de ses données à grande échelle. Cette affaire met en lumière une tension croissante entre les détenteurs de contenu et les entreprises d'intelligence artificielle qui ont un besoin insatiable de données pour entraîner leurs modèles. Au-delà d'un simple conflit, c'est tout un modèle économique qui est en jeu.
Qui sont les accusés dans cette affaire ?
La plainte déposée le 22 octobre 2025 dans un tribunal fédéral de New York vise quatre entités distinctes, formant un écosystème de collecte de données :
- Perplexity AI : Une startup valorisée à 20 milliards de dollars, connue pour son moteur de recherche basé sur une IA qui fournit des réponses directes aux utilisateurs.
- Oxylabs : Une entreprise lituanienne spécialisée dans le data scraping à grande échelle.
- AWMProxy : Un domaine décrit par Reddit comme un « ancien botnet russe ».
- SerpApi : Une startup du Texas qui vend des services pour extraire des données des moteurs de recherche, notamment Google.
Reddit ne cible pas seulement une entreprise d'IA, mais aussi les intermédiaires qui l'alimentent en données, une approche qui vise à démanteler toute la chaîne d'approvisionnement.
Les accusations de Reddit : un vol à grande échelle
Au cœur de la plainte, on retrouve l'accusation de data scraping illégal. Selon Reddit, ces entreprises ont contourné ses mesures de protection pour collecter massivement le contenu de ses discussions. Les méthodes décrites sont particulièrement sophistiquées. Plutôt que d'attaquer Reddit directement, les accusés auraient utilisé une méthode détournée : scraping les pages de résultats de Google (SERPs) où apparaissaient des extraits de contenus Reddit.
Ben Lee, directeur juridique de Reddit, qualifie cette pratique de « blanchiment de données à l'échelle industrielle ». Pour lui, ces entreprises sont comme des « braqueurs de banques qui, ne pouvant accéder au coffre-fort, s'en prennent au fourgon blindé qui transporte l'argent ». L'enjeu est économique : Reddit a signé des accords de licence très lucratifs avec des géants comme Google et OpenAI, et ces pratiques de contournement menacent directement cette source de revenus, qui représente près de 10% du chiffre d'affaires de la plateforme selon sa directrice opérationnelle Jen Wong.
Le piège qui a confondu Perplexity
Pour prouver ses allégations, Reddit a tendu un piège ingénieux. L'équipe de la plateforme a créé un « post test », une publication conçue pour être uniquement indexable par le moteur de recherche Google. Ce contenu n'était accessible nulle part ailleurs sur le site de Reddit, ni par navigation directe, ni par recherche interne. C'était l'équivalent numérique d'un billet de banque marqué.
Quelques heures seulement après sa mise en ligne, le contenu unique de ce post test est apparu dans les réponses générées par le moteur de Perplexity. Pour Reddit, la preuve était irréfutable. La seule manière pour Perplexity d'obtenir cette information était de scraper les résultats de Google et non son site. Cette démonstration technique est au cœur de leur argumentation, prouvant un contournement délibéré de leurs règles.
Des données chiffrées qui étayent la plainte
La plainte de Reddit s'appuie sur des données chiffrées impressionnantes obtenues via une assignation (subpoena) adressée à Google. Selon les documents judiciaires, sur une période de seulement deux semaines en juillet 2025, les scrapeurs ont accédé à près de trois milliards de pages de résultats de recherche contenant des données Reddit. Cette échelle massive confirme la nature industrielle de l'opération alléguée.
Autre chiffre clé : après avoir envoyé une lettre de mise en demeure à Perplexity en mai 2024 pour cesser le scraping, Reddit affirme que les citations vers son contenu dans les réponses de Perplexity ont augmenté de quarante fois, une augmentation spectaculaire qui suggère une accélération plutôt qu'un arrêt des activités répréhensibles.
La défense de Perplexity : la bataille de l'Internet ouvert
De son côté, Perplexity a vivement réagi, niant toute mauvaise conduite. L'entreprise affirme qu'elle ne fait que résumer et citer des discussions publiques, un peu comme le ferait n'importe quel utilisateur partageant un lien. Selon eux, ils n'entraînent pas de modèles de fondation sur ces données, ce qui rendrait un accord de licence impossible à signer.
Dans une réponse publiée sur... Reddit même, Perplexity accuse la plateforme de tentative d'« extorsion » et d'attaquer les principes d'un Internet ouvert. Ils suggèrent que cette poursuite n'est qu'un « show de force » dans les négociations de Reddit avec d'autres géants de la tech comme Google et OpenAI. Le ton est monté, dessinant les lignes d'un conflit idéologique : la propriété des données contre la libre circulation de l'information.
Calendrier judiciaire et prochaines étapes
La plainte a été déposée le 22 octobre 2025 devant le tribunal fédéral du district sud de New York (case number 1:25-cv-08736) et assignée au juge Paul Adam Engelmayer. Les entreprises defendant ont jusqu'à mi-novembre 2025 pour répondre à la plainte. À ce stade, aucune date de procès ou de verdict n'a été annoncée, les procédures civiles de cette complexité aux États-Unis prenant souvent plusieurs années avant un jugement final.
Les prochaines étapes incluront probablement des motions de rejet de la part des défendeurs, une phase de découverte (où les deux parties échangeront des preuves), et potentiellement des tentatives de règlement à l'amiable. Reddit cherche une injonction permanente pour bloquer le scraping, ainsi que des dommages et intérêts financiers.
Des enjeux qui dépassent Reddit
Cette affaire est bien plus qu'une simple dispute juridique entre deux entreprises. Elle pourrait créer un précédent majeur pour toute l'industrie de l'IA. La stratégie de Reddit est intéressante : plutôt que de se baser uniquement sur le droit d'auteur, la plainte se concentre sur le non-respect des conditions d'utilisation (contrat) et le contournement de mesures techniques (en vertu du DMCA aux États-Unis).
Cette approche est potentiellement plus efficace car elle ne dépend pas de la complexité de la propriété du contenu généré par les utilisateurs. Si Reddit gagne, cela pourrait signifier que les plateformes ont un droit de regard beaucoup plus strict sur la manière dont leurs données, même publiques, peuvent être utilisées par des tiers à des fins commerciales. Celaforcerait les entreprises d'IA à négocier des licences de manière plus systématique, transformant radicalement l'économie de la donnée.
Sources
- Reddit sues AI company Perplexity and others for 'industrial-scale' scraping of user comments - AP News : L'article de l'Associated Press qui a révélé l'affaire en détail, avec les réactions des différentes parties.
- Lawsuit: Reddit caught Perplexity "red-handed" stealing data - Ars Technica : Une analyse technique approfondie du piège tendu par Reddit et des systèmes de contournement utilisés.
- Inside the trap Reddit set for Perplexity in data scraping legal scuffle - Business Insider : Un article qui explique de manière très claire le fonctionnement du « post test » et son importance dans la plainte.
- Reddit, Inc. v. SerpApi LLC et al - CourtListener : Le dossier judiciaire officiel avec les références du cas et les dernières procédures.
- AI Licensing Deals With Google and OpenAI Make Up 10% of Reddit's Revenue - Adweek : L'entretien où la COO de Reddit confirme le poids économique des accords de licence IA.
Qu'est-ce que le "data scraping" dans le contexte du procès de Reddit contre Perplexity
Le "data scraping" (ou collecte de données) désigne l'extraction automatisée de grandes quantités de données d'un site web. Ici, les entreprises accusées ne l'ont pas fait directement sur Reddit, mais en récupérant les informations qui apparaissaient dans les résultats de recherche de Google, une méthode jugée illégale par Reddit car elle contournait ses protections techniques.
Comment Reddit a-t-il prouvé que Perplexity utilisait ses données illégalement ?
Reddit a créé un "post test", un contenu unique accessible uniquement via Google et non sur son propre site. Quelques heures plus tard, Perplexity a intégré ce contenu spécifique dans ses réponses, prouvant qu'elle avait bien récupéré l'information en scrapant les résultats de Google.
Quelles sont les données chiffrées clés de le procès Reddit contre Perplexity ?
Les principales données chiffrées sont : près de 3 milliards de pages de résultats Google contenant des données Reddit scrapées en deux semaines (juillet 2025), et une augmentation de 40 fois des citations de Reddit dans les réponses de Perplexity après une lettre de mise en demeure. Les licences IA représentent aussi environ 10% des revenus de Reddit.
Quand est-ce qu'est le verdict du procès Reddit contre Perplexity
À ce stade, aucune date de procès ou de verdict n'a été annoncée. La plainte a été déposée en octobre 2025 et les défendeurs ont jusqu'à mi-novembre 2025 pour répondre. Les procédures civiles de cette nature aux États-Unis prennent généralement plusieurs années avant un jugement final.
Quelles pourraient être les conséquences du procès Reddit contre Perplexity pour l'industrie de l'IA ?
Si Reddit gagne, cela pourrait forcer les entreprises d'IA à négocier des licences plus systématiquement avec les plateformes détentrices de données. Cela pourrait créer un précédent juridique renforçant le contrôle des plateformes sur leurs données, même publiques, et redéfinir l'économie de la donnée pour l'IA.





