Meta a utilisé des livres piratés d’auteurs acadiens pour son intelligence artificielle

De nombreux écrivains, au Canada et ailleurs, ont été contrariés de constater que leur travail, sur lequel ils ont des droits d’auteur, est utilisé par des entreprises d’intelligence artificielle pour entraîner leurs modèles.

Meta, propriétaire d’Instagram et Facebook, est l’une de ces entreprises qui puisent dans Library Genesis, une base de données de quelque 90 millions de livres et articles scientifiques piratés, pour nourrir et entraîner leurs outils d’intelligence artificielle (IA), selon une récente enquête du magazine américain The Atlantic.

Le moteur de recherche (nouvelle fenêtre) publié par le magazine permet de voir quelles œuvres ont été pillées par Library Genesis. Des articles de recherches écrits par l'autrice néo-brunswickoise Sonya Malaborza, directrice de l’édition aux Éditions Prise de parole, s'y trouvent, aux côtés d'auteurs acadiens comme Antonine Maillet et Gérald Leblanc.

Elle trouve absolument aberrant que ces géants des technologies utilisent ces œuvres, sans avoir à négocier de droits d’auteur avec celles et ceux qui les ont créées.

Sonya Malaborza sourit, assise le menton appuyé dans la main, devant une étagère remplie de livres.

Sonya Malaborza est directrice de l'édition aux Éditions Prise de parole. (Photo d'archives)

Photo : Anne-Marie Parenteau

Elle a souligné lundi dans une entrevue à l’émission L’heure de pointe - Acadie que, déjà, en 2023, de nombreux auteurs très connus avaient constaté que leurs œuvres piratées par un autre moteur de recherche, Books3, servaient à nourrir les intelligences artificielles de Meta et d’OpenAI, créateur de ChatGPT.

Toujours le même problème, c'est cette volonté de rassembler des textes sans l'aval des [auteurs], pour essayer de [mimer le] langage humain, dit Sonya Malaborza.

Library Genesis répertorie sans permission des œuvres en plusieurs langues. En plus de ses écrits, Sonya Malaborza y a trouvé des livres publiés par la maison d’édition qu’elle représente.

Personne n'a consulté les auteurs de chez nous et d'ailleurs, dit-elle.

J'y vois une réelle dévaluation du temps et de l'effort des auteurs, des autrices — des chercheurs également — comme si la matière qu'on produit pouvait tout simplement être utilisée et transférée à d'autres fins, se désole-t-elle.

Les lois canadiennes inadéquates

En entrevue lundi à L’heure de pointe, l’avocat Christian Clavette, spécialisé en droit et technologies, regrette de ne pouvoir rassurer les écrivains.

C'est tout à fait inéquitable et injuste ce qui se passe. Malheureusement, je ne suis pas convaincu que ce soit illégal.
Une citation de Christian Clavette, avocat spécialisé en droit et technologies

Le droit d'auteur protège contre la reproduction d'une œuvre, souligne-t-il. La Cour suprême du Canada a défini, dans son arrêt Théberge, qui fait autorité en la matière, qu’une reproduction est quand on passe d'une version de l'œuvre originale à deux, essentiellement quand on a une copie, dit Christian Clavette.

Une version numérique d’un livre ou d’un article peut être une copie, mais le problème dans l’entraînement de l’IA, c’est qu’il n'y a pas de preuve à l'effet qu'on crée une nouvelle copie de l'œuvre originale, selon le juriste.

En ne créant pas cette copie, cette reproduction, c'est difficile de prouver à la cour que le droit d'auteur a été violé, dit-il.

La loi n'est pas suffisante pour protéger face à l'intelligence artificielle, avance Christian Clavette. Je ne pense pas que la solution va passer par les tribunaux, ici.

À moins qu'on ait une modification de la loi — un amendement qui précise que d'utiliser une oeuvre protégée par le droit d'auteur pour entraîner une intelligence artificielle constitue une violation du droit d'auteur du titulaire — à moins qu'on ait ça, je ne pense pas qu'il va avoir un recours en justice possible, ou valide, qui va faire long feu devant les tribunaux, déclare-t-il.

Joint par Radio-Canada vendredi dernier, Meta n’a pas souhaité offrir de commentaire.

En cour, Meta a déjà plaidé qu’entraîner ses modèles d’IA sur des œuvres protégées par le droit d’auteur constitue un usage équitable, puisque les robots conversationnels transforment le matériel d’origine en une nouvelle œuvre.

Inquiétude chez les auteurs

L’autrice Sonya Malaborza s’avoue inquiète pour les créateurs.

Il y a plein d'enjeux qui sont liés à notre utilisation de ces outils dont on n’est pas du tout conscient, note-t-elle. On se retrouve devant des outils qui peuvent nous permettre de gagner en productivité, peuvent nous permettre d'avoir une économie de temps, mais en quelque part, tout ça est construit sur les labeurs de gens.

À plus long terme, on peut se poser la question en tant que créateurs, créatrices, est-ce que notre temps de création à l'avenir va être valorisé?, demande-t-elle.

Avec l’avancement de cette technologie, il s’agit d’une question qui ne se résoudra pas d’elle-même, pense l’avocat Christian Clavette.

OpenAI a déjà fait le tour d'internet, a déjà utilisé à peu près toutes les données disponibles, affirme-t-il. Pour arriver aux prochaines générations d'intelligence artificielle, [les entreprises d’IA] ont besoin de données fraîches, et ça, ça veut dire accéder à de nouvelles oeuvres protégées par le droit d'auteur.

Avec les renseignements d’Amélie Gosselin de l'émission L'heure de pointe - Acadie