Suite à une enquête de Mediapart révélant que Guillaume Lample, cofondateur de Mistral AI, a utilisé la base de données piratée Library Genesis (LibGen) pour entraîner l'IA LLaMA chez Meta, Yannick Dehée a publié une tribune dans Le Nouvel Obs interpellant directement l'entreprise française. L'éditeur, qui a retrouvé plus de 200 titres de son catalogue dans cette base piratée, lance un appel à la mobilisation des auteurs et éditeurs.
Lire aussi : Mistral AI, champion français embarrassant du combat pour les droits d'auteur
Livres Hebdo : Vous avez de fortes suspicions sur l’utilisation de contenus, dont une partie des vôtres, de manière illicite par Mistral AI. Sur quoi vous basez-vous ?
Yannick Dehée : L'enquête de Mediapart du 22 décembre dernier établit que Guillaume Lample a utilisé LibGen chez Meta. Dans des e-mails internes, il écrit que tout le monde utilise cette base, citant OpenAI, Google et DeepMind. L'article établit une forte probabilité qu'il ait importé cette pratique chez Mistral. J'ai trouvé plus de 200 titres de mon catalogue dans LibGen, soit 20 % de nos livres. Pour d'autres éditeurs, c'est vertigineux : Gallimard, Seuil, PUF, Les Belles Lettres, Armand colin, La Découverte (pour ne citer qu’eux) sont massivement pillés. Pour Jean-Noël Jeanneney, un de mes auteurs, quasiment tous ses ouvrages y figurent. La réglementation européenne impose depuis l'été 2024 de publier les données d'entraînement utilisées. Mistral ne s'y conforme pas.
Pourquoi cibler Mistral plutôt que les géants américains ?
Mistral est le seul acteur français et européen de l'IA. Ils se présentent comme un outil de confiance, de souveraineté, par opposition aux géants américains. Nous avons tous envie que ce soit vrai. Je comprends qu'ils aient eu besoin d'arriver vite. Mais aujourd'hui, ils ont atteint un palier de notoriété et de chiffre d'affaires. Il est temps de régulariser. Cela leur permettrait d'afficher qu'ils utilisent des bases d'ouvrages fiables, ce serait même un argument promotionnel. S'ils n'avaient pas utilisé LibGen, il serait simple de le dire.
« On a tous envie de voir Mistral réussir, mais ils doivent régulariser rapidement »
Qu'attendez-vous de la profession ?
J'ai reçu des dizaines de messages après ma tribune. Il faut donner forme à cette mobilisation en associant impérativement les auteurs pour obtenir un effet de levier politique. L'action du Syndicat national de l'édition est fondamentale pour alerter les pouvoirs publics, premiers financeurs de Mistral via la BPI. Mais il faut aussi une pression extérieure. Je renvoie aux négociations sur le GATT où toute la chaîne du cinéma s'est mobilisée. Nous sommes sur un marché qui n'est pas en croissance, face à des acteurs qui exploitent notre travail pour construire des valorisations astronomiques pendant que nous gérons une décroissance. Il serait sain que notre business model évolue et inclue des licences légales aux outils d'IA.
Quelle issue envisagez-vous ?
Mon propos n'est pas anti-IA. Il faut faire les choses bien. Pour les géants américains, ce sera la voie judiciaire, longue. Une proposition de loi transpartisane au Sénat portée par Laure Darcos vise à inverser la charge de la preuve et cite Mistral. Mais les IA évoluent très vite. Si on attend qu'une loi soit promulguée et validée, il sera trop tard. Mistral peut faire la sourde oreille mais risque des dommages réputationnels. Si on est vocaux sur les réseaux sociaux, on gêne. Il faut être mobiles et visibles. Cette bataille se mène aussi dans les médias. On a tous envie de voir Mistral réussir, mais ils doivent régulariser rapidement, pas dans cinq ou dix ans quand ils y seront contraints.
