Dans la training course à l’intelligence artificielle, Google a annoncé avoir développé un bot qui crée de la musique basée sur des invites textuelles – mais ne vous attendez pas à pouvoir l’utiliser de si tôt.
Dans un short article de recherche publié jeudi, les chercheurs de Google ont décrit MusicLM comme « un modèle générant de la musique haute fidélité à partir de descriptions textuelles telles que » une mélodie de violon apaisante soutenue par un riff de guitare déformé « ».
« Nous démontrons que MusicLM peut être conditionné à la fois sur du texte et sur une mélodie en ce sens qu’il peut transformer des mélodies sifflées et fredonnées selon le style décrit dans une légende de texte », lit-on dans l’article.
Selon l’étude, les utilisateurs peuvent saisir des descriptions telles que « chanson de jazz enchanteresse avec un solo de saxophone mémorable et un chanteur solo » ou « techno des années 90 de Berlin avec des basses basses et un coup de pied puissant » et recevoir les résultats correspondants. Des exemples similaires, partagés sur la web site Github de Google, affichent l’audio correspondant à ces invitations.
Les débuts de MusicLM surviennent lors de l’ascension fulgurante du chatbot ChatGPT d’OpenAI, qui a incité Google à émettre un « code rouge » – ce que le New York Moments a décrit en décembre comme « ressemblant à tirer l’alarme incendie » pour le géant de la technologie.
Dans une tentative de concurrence, la société accélère la sortie de 20 nouveaux produits, ainsi qu’une variation de Google Research avec des fonctionnalités de chatbot AI, selon le Situations.
Pourtant, Google a déclaré qu’il n’avait pas l’intention de diffuser MusicLM au general public, citant une variété de risques, notamment des biais de programmation pouvant entraîner un manque de représentation et d’appropriation culturelle, des problèmes technologiques, et notamment « le détournement potentiel de contenu créatif ».
Selon l’étude, des chansons existantes identifiables ont été trouvées dans approximativement 1 % des exemples, indiquant une violation potentielle du droit d’auteur.
« Nous soulignons fortement la nécessité de travaux futurs supplémentaires pour lutter contre ces risques associés à la génération de musique – nous n’avons pas l’intention de publier des modèles à ce stade », indique l’étude.
L’étude take note également les limites existantes de la technologie, notamment l’utilisation de négations et l’ordre temporel utilisé dans les invitations textuelles, ainsi que la qualité vocale. Pour l’avenir, les chercheurs ont déclaré qu’ils avaient l’intention de travailler à « la modélisation de la framework de la chanson de haut niveau comme l’introduction, le couplet et le chorus ».