in

La transcription voix-texte à l'aide de ChatGPT est IMPRESSIONNANTE

L’application iOS ChatGPT vous permet de l’inviter avec votre voix. Après l’avoir utilisé pendant un certain temps, j’ai réalisé que c’était la meilleure transcription voix-texte que j’aie jamais vue.. Il s’avère qu’il est alimenté par un autre modèle OpenAI appelé “Whisper”.

Il y a quelques semaines, OpenAI a finalement sorti une application iOS native pour ChatGPT.

Une fonctionnalité intéressante de l’application est que vous pouvez simplement parler à ChatGPT pour créer une invite au lieu d’utiliser vos pouces pour écrire du texte.

Après avoir fait cela plusieurs fois, j’ai remarqué quelque selected qui n’était pas évident au début. La transcription voix-texte que l’application faisait était meilleure que n’importe quelle transcription voix-texte que j’avais jamais vue. C’était bien mieux que ce que vous obtenez lorsque vous utilisez la technologie de transcription indigenous d’Apple dans iMessage ou autre. Et c’est encore mieux que certains outils de transcription autonomes populaires alimentés par l’IA.

La transcription voix-texte à l'aide de ChatGPT est IMPRESSIONNANTE

L’autre jour, j’écrivais un article sur le dernier acte d’accusation de Trump, et je voulais citer l’un de mes podcasts préférés, Severe Issues.

Vers la fin de l’épisode, le co-animateur Josh Barro demande à l’ancien procureur devenu grand avocat de la défense Ken White si Trump va être arrêté et traduit en justice.

Voici comment l’un des principaux services de transcription alimentés par l’IA, Otter.ai, a transcrit la réponse de White  :

“Maintenant, probablement, puisqu’une convocation demande, il se rendra techniquement au maréchal américain. Et ils l’arrêteront techniquement, et prendront ses empreintes digitales et sa photograph et ce style de choses. Mais ça ne va pas être un truc de menottes comme le lay-up vous savez, vous êtes juste en quelque sorte poliment dans le bureau du maréchal et ils regarderont poliment dans la salle d’audience, en particulier lorsque vous vous portez volontaire et que vous vous présentez à 99,9% Specified qu’il obtiendra, vous savez, un lien indulgent probablement même vous le savez, tout comme si nous appelons cela ce n’est pas du tout un lien. là-bas et il sera arrangé, vous serez informé des accusations. Et peut-être qu’ils prendront un plaidoyer de non-culpabilité maintenant. Peut-être qu’ils l’enverront au canon du juge et qu’elle prendra la plaque. Parfois, les juges fédéraux aimeraient que le juge d’instance prenne la place. Parfois, le juge aime prendre la plaque, c’est une affaire de salle d’audience, mais pas beaucoup de substance importante arrivera à la première apparition.”

Et voici ChatGPT transcrit en blanc  :

“Maintenant, probablement, puisqu’ils l’ont convoqué, il se rendra techniquement au maréchal américain, et ils l’arrêteront techniquement, et prendront ses empreintes digitales et sa image et ce genre de choses, mais ce ne sera pas des menottes selected, probablement. Vous savez, vous venez d’entrer poliment dans le bureau du maréchal, et ils entreront poliment dans la salle d’audience. Surtout lorsque vous vous présentez volontairement. Je suis sûr à 99,9 % qu’il obtiendra une warning indulgente, probablement même juste une zone d’engagement, pas un cautionnement du tout. Et il sera interpellé, il sera informé des accusations, et peut-être qu’ils accepteront un plaidoyer de non-culpabilité maintenant, peut-être qu’ils l’enverront au juge Cannon, et elle prendra le plaidoyer. Parfois, les juges fédéraux aimeraient qu’un juge d’instruction prenne le plaidoyer, parfois le juge lui-même aime prendre le plaidoyer. C’est une chose tribunal par salle d’audience, mais pas beaucoup de gros substance se produira à la première apparition.”

Je n’ai édité aucun de ces passages. Je viens de copier et coller l’un d’Otter.ai et l’autre de ChatGPT.

La différence est remarquable, non ? Vous pouvez presque entendre la personne parler dans la variation ChatGPT.

J’ai envoyé un e-mail à Sam Altman, PDG d’OpenAI, pour lui demander pourquoi ChatGPT est si bon dans ce domaine. Il m’a dit que la raison pour laquelle l’application ChatGPT est si bonne dans ce domaine est qu’elle utilise une autre technologie OpenAI appelée “Whisper”.

Voici remark OpenAI commercialise/explique “Whisper” sur son web site Web  :

“L’architecture Whisper est une approche basic de bout en bout, implémentée en tant que transformateur d’encodeur-décodeur. L’audio d’entrée est divisé en morceaux de 30 secondes, converti en un spectrogramme log-Mel, puis transmis à un encodeur. Un décodeur est formés pour prédire la légende de texte correspondante, mélangés à des jetons spéciaux qui dirigent le modèle unique pour effectuer des tâches telles que l’identification de la langue, les horodatages au niveau de la phrase, la transcription vocale multilingue et la traduction vocale vers l’anglais.

Cette explication m’a laissé un peu… confus. Alors je suis allé chercher additionally et j’ai trouvé un posting académique sur le modèle Whisper. J’ai essayé de l’analyser mais, hoo boy, ça pourrait aussi bien être en grec pour moi.

J’ai donc chargé un autre de mes outils d’IA préféré, ChatPDF, dans mon navigateur et j’y ai déposé un PDF du papier. ChatPDF vous permet de saisir un PDF en tant qu’invite pour ChatGPT, puis répond aux queries que vous vous posez sur le PDF en utilisant du texte.

Après quelques incitations, ChatPDF m’a donné une explication utile de la raison pour laquelle Whisper est si bon.

“Les auteurs de cet short article ont développé une nouvelle approche de la formation des systèmes de reconnaissance vocale qui utilise de grandes quantités de données audio provenant d’Internet, sans avoir besoin d’un étiquetage humain. Ils ont constaté que cette approche aboutissait à des modèles de reconnaissance vocale furthermore précis et in addition robustes que modèles précédents, même lorsqu’ils ont été testés sur différents types de discours.”

“L’apprentissage supervisé traditionnel nécessite une grande quantité de données étiquetées, ce qui est coûteux et very long à obtenir. En revanche, l’approche utilisée dans cet write-up est basée sur une supervision faible, ce qui signifie que les modèles sont entraînés sur de grandes quantités de données non étiquetées. sans avoir besoin d’étiquetage humain. Les auteurs ont utilisé une strategy appelée pré-formation non supervisée, qui permet aux modèles d’apprendre directement à partir de données audio brutes. Cette approche est moreover évolutive et peut utiliser des ensembles de données beaucoup additionally volumineux que l’apprentissage supervisé traditionnel. les auteurs ont constaté que leur approche a abouti à des modèles de reconnaissance vocale in addition précis et plus robustes que les modèles précédents, même lorsqu’ils ont été testés sur différents styles de parole.”

Alors voilà ! Whisper peut s’entraîner sur des ensembles de données audio beaucoup additionally volumineux car il n’a pas besoin d’humains pour tout étiqueter. Il y a l’IA qui alimente l’IA, me semble-t-il. Je suppose que c’est aussi un signe des choses à venir. L’autre jour, un VC a stupéfié un groupe de journalistes qu’il était en train de briefer lorsqu’il a déclaré que ChatGPT 7 serait construit par ChatGPT 6. Hein  !

Altman m’a mentionné qu’il existe des applications et des solutions au-delà de l’application ChatGPT utilisant Whisper. J’en ai trouvé un dans le magasin d’applications Mac appelé Whisper Transcriptions.

Jusqu’à présent, l’interface utilisateur est assez moche par rapport à Otter.ai, mais je suis ravi de voir si les transcriptions elles-mêmes sont supérieures.