L'IA a avalé 21 millions de titres : c'est désormais public

L’essentiel

Le journaliste Alex Reisner, du magazine The Atlantic, a rendu publiquement cherchables quatre jeux de données musicaux servant à entraîner des IA.
Les deux plus gros corpus comptent 12 et 9 millions de titres ; deux autres dépassent 100 000 chansons chacun, pour plus de 21 millions de morceaux au total.
Google et Stability ont reconnu, dans des articles de recherche, avoir utilisé ces données.
On y retrouve Radiohead, Lady Gaga, Wu-Tang Clan, Bruce Springsteen ou Aphex Twin.

Vos morceaux préférés ont-ils servi à fabriquer une intelligence artificielle musicale ? La question semblait impossible à trancher. Elle ne l’est plus.

Ce qui vient d’être mis en ligne

Le journaliste Alex Reisner, du magazine The Atlantic, a mis la main sur quatre jeux de données composés de musique servant à entraîner des modèles d’IA. Puis il a fait ce que personne n’avait osé : il les a rendus consultables par le grand public, via le site AI Watchdog du magazine.

Les volumes donnent le vertige. Les deux plus gros corpus rassemblent respectivement 12 et 9 millions de titres. Les deux autres, plus modestes, dépassent tout de même les 100 000 chansons chacun. Au total, plus de 21 millions de morceaux indexés, dans des bases téléchargées des milliers de fois.

On y croise aussi bien des stars du grand public, Lady Gaga, Fred Again.., Bruce Springsteen, que des références plus pointues : Radiohead, Aphex Twin, Wu-Tang Clan, ou le compositeur expérimental Hainbach. Tapez un nom, et vous savez.

Comment fonctionne un jeu de données musical, concrètement

Première question naïve : si ces bases sont « librement disponibles », où est le problème ? La réponse tient dans leur mécanique d’assemblage, plus retorse qu’un simple fichier à télécharger.

Trois des quatre corpus ne contiennent pas la musique elle-même. Ils se présentent comme de simples listes de liens vers des morceaux hébergés sur YouTube ou Spotify. Pour récupérer l’audio, les développeurs emploient des outils d’extraction automatisée qui aspirent les fichiers en masse, en contournant au passage les protections d’accès, les publicités et les mécanismes censés rémunérer les créateurs.

Le résultat ? Des outils qui violent frontalement les conditions d’utilisation des plateformes. Et la nuance compte : certaines sources, comme le Free Music Archive, autorisent l’écoute personnelle gratuite mais exigent une licence pour tout usage commercial, entraînement d’un modèle compris.

Voyez ces bases comme un annuaire plutôt que comme une discothèque. L’annuaire est public ; le démarchage industriel des numéros qu’il contient, lui, ne l’est pas forcément.

@verge sur X

De la zone grise à la preuve indexée

Jusqu’ici, le débat sur l’IA et le droit d’auteur tournait à vide pour une raison simple : l’asymétrie d’information. Les laboratoires savaient ce qu’ils avaient ingéré ; les ayants droit, eux, en étaient réduits aux suppositions. Difficile d’attaquer quand on ne peut pas prouver sa propre présence dans le corpus.

C’est précisément ce verrou que l’enquête fait sauter. Et l’attribution ne relève pas du soupçon : selon Reisner, Google et Stability ont eux-mêmes reconnu, dans des articles de recherche, avoir utilisé ces données. La confirmation vient des laboratoires concernés, pas d’une rumeur.

Un artiste, un éditeur, un label peut désormais saisir un nom et vérifier, en quelques secondes, si telle chanson figure dans une base d’entraînement. Le scandale du copyright cesse d’être une abstraction militante pour devenir une donnée consultable, nominative, opposable.

Ce que ça change pour qui crée et pour qui construit

Pour le créateur, l’outil rebat les cartes. La charge de la preuve, jusqu’ici écrasante, s’allège d’un coup : on passe de « je soupçonne » à « voici la ligne de la base ». Cela ne règle pas la question juridique de fond, l’entraînement relève-t-il de l’usage loyal ou de la contrefaçon, mais cela fournit la matière concrète qui manquait aux procédures. Le terrain est d’ailleurs déjà miné : les majors du disque poursuivent depuis 2024 les générateurs musicaux Suno et Udio, et si Universal et Warner ont transigé fin 2025, Sony plaide toujours.

Pour qui conçoit ou déploie des modèles, le signal est tout aussi clair. L’époque où la provenance des données restait un angle mort confortable se referme. Documenter ses corpus, tracer ses sources, savoir répondre à « d’où vient cette donnée ? » n’est plus une coquetterie de conformité : c’est une exposition juridique mesurable. Mieux vaut exiger cette traçabilité en amont que la découvrir devant un tribunal.

Reste un paradoxe que l’enquête expose sans le résoudre : les bases demeurent en ligne, accessibles, copiées des milliers de fois. Les rendre visibles ne les fait pas disparaître. Mais elles ne sont plus invisibles.

Mon avis

La bascule n’est pas juridique, elle est probatoire : tant qu’un artiste ne pouvait pas prouver sa présence dans un corpus, aucun procès ne tenait debout. Maintenant qu’une recherche par nom fait office de pièce à conviction, je parie que la prochaine vague de litiges ne portera plus sur le principe de l’entraînement, mais sur des listes nominatives, morceau par morceau. Les laboratoires qui ont misé sur l’opacité viennent de perdre leur meilleur bouclier, et je ne crois pas qu’ils l’avaient anticipé.

Sources

Stability

L’IA a avalé 21 millions de titres : c’est désormais public

Ce qui vient d’être mis en ligne

Comment fonctionne un jeu de données musical, concrètement

De la zone grise à la preuve indexée

Ce que ça change pour qui crée et pour qui construit

Sources

Un autre article ?

Amazon : témoigner sur l’IA peut-il coûter son poste ?

Être « dans les poids » d’une IA, un oubli impossible

Deepfake : l’UE ne sait plus le définir, le retail s’engouffre

Laisser un commentaire Annuler la réponse