Microsoft a annoncé qu’il travaillait sur un outil d’intelligence artificielle de synthèse vocale.. VALL-E peut cloner la voix de quelqu’un à partir d’un clip audio de 3 secondes et l’utiliser pour synthétiser d’autres mots. Il est intervenu alors que le géant de la technologie prévoit d’investir 10 milliards de bucks dans l’outil d’écriture ChatGPT d’OpenAI..
Microsoft, qui prévoit d’investir 10 milliards de pounds dans ChatGPT, travaille sur une intelligence artificielle appelée VALL-E qui peut cloner la voix de quelqu’un à partir d’un clip audio de trois secondes.
VALL-E utilise la technologie de synthèse vocale pour convertir les mots écrits en mots parlés dans des discours “personnalisés de haute qualité”, selon le document de 16 web pages.
Il a utilisé des enregistrements de furthermore de 7 000 vrais locuteurs de LibriLight – un ensemble de données de livres audio composé de textes du domaine public lus par des volontaires – pour effectuer son échantillonnage. Le géant de la technologie a publié des exemples du fonctionnement de VALL-E, montrant comment la voix d’un haut-parleur est clonée.
L’outil d’intelligence artificielle n’est actuellement pas disponible pour un use public et Microsoft n’a pas précisé son objectif.
Les chercheurs ont déclaré que les résultats jusqu’à présent ont montré que VALL-E “surpasse considérablement” les systèmes les in addition avancés de ce type, “en termes de naturel de la parole et de similitude des locuteurs”.
Mais ils ont souligné le manque de diversité des accents parmi les locuteurs et que certains mots du discours synthétisé étaient “peu clairs, manqués ou dupliqués”.
Ils ont également inclus un avertissement éthique sur VALL-E et ses risques, affirmant que l’outil pourrait être utilisé à mauvais escient, par exemple pour “usurper l’identification vocale ou se faire passer pour un locuteur spécifique”.
“Pour atténuer ces risques, il est possible de construire un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E”, ont écrit les développeurs dans l’article. Ils n’ont pas donné de détails sur la façon dont cela pourrait être fait.
Ils ont ajouté que “si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix”.
Pendant ce temps, Microsoft a annoncé lundi qu’il mettrait le ChatGPT d’OpenAI à la disposition de ses propres expert services après avoir annoncé son intérêt à investir 10 milliards de dollars dans l’outil d’écriture d’IA.
Bien que ChatGPT ait inspiré la créativité, comme pour un homme qui a écrit un livre pour enfants en un 7 days-conclude, il a soulevé des inquiétudes quant à la fiabilité de l’outil.