Les géants de l'IA comme OpenAI et Anthropic manquent de bonnes données de formation

Des entreprises comme OpenAI et Anthropic se démènent pour mettre la principal sur l’une des ressources les as well as précieuses de l’IA : des données fiables. Ce déficit pourrait entraver le développement de grands modèles de langage qui alimentent leurs chatbots alors que la study course à la création des meilleurs produits dans un secteur en pleine croissance s'intensifie.

En règle générale, ChatGPT d'OpenAI et ses concurrents chatbots sont formés sur des tonnes d'informations telles que des articles scientifiques, des content articles de presse et des articles Wikipédia extraits du World wide web pour générer des réponses de form humain. Moreover la qualité et la fiabilité des données utilisées par ces modèles sont élevées, in addition ils sont capables de produire des résultats précis et souhaitables, du moins c'est ce que dit la théorie.

Alors pourquoi les entreprises technologiques semblent-elles à la recherche d’informations fiables ?

Premièrement, seule une partie des données en ligne est généralement adaptée à la formation en IA. En effet, la plupart des informations publiques sur le World-wide-web contiennent des fragments de phrases et d'autres défauts textuels qui peuvent empêcher l'IA de produire des réponses conversationnelles. Le manque de données utilisables est aggravé par la multitude de textes déjà générés par l’IA sur Online qui peuvent polluer un modèle avec des absurdités – un processus que les authorities appellent « l’effondrement du modèle ».

Les géants de l'IA comme OpenAI et Anthropic manquent de bonnes données de formation

En moreover de cela, les principaux médias, plateformes de médias sociaux et autres sources d’information publiques ont restreint l’accès à leur contenu destiné à entraîner l’IA en raison de préoccupations concernant le droit d’auteur, la confidentialité et une rémunération équitable. Les gens ne semblent pas non furthermore disposés à rendre leurs discussions iMessage et autres données textuelles privées accessibles à des fins de development.

Cela oblige les entreprises à se démener pour trouver de nouvelles resources de données pour renforcer leurs outils. OpenAI, par exemple, discute de la development de GPT-5, qui serait son modèle le in addition avancé, sur les transcriptions de vidéos YouTube, ont indiqué des resources au Journal.

OpenAI a également envisagé de créer un marché de données où les fournisseurs pourraient être payés pour du contenu que l'entreprise considère comme précieux pour la development des modèles, ont déclaré au Journal des resources proches du file. Google envisagerait une méthode similaire, selon le Journal, bien que les chercheurs n'aient pas encore construit de système pour la mettre en œuvre correctement.

OpenAI, qui a créé ChatGPT, étudie également cette tactique, a déclaré un porte-parole au Journal.

Les inquiétudes concernant la rareté des données surviennent alors que les utilisateurs se plaignent de la qualité des chatbots IA.

Certains utilisateurs de GPT-4, le modèle le furthermore avancé d'OpenAI derrière ChatGPT, affirment avoir rencontré des problèmes pour que le robot suive les recommendations et réponde aux requêtes. Google a suspendu sa fonctionnalité de génération d'illustrations or photos IA sur son modèle Gemini après que des utilisateurs se soient plaints de la manufacturing d'photographs historiquement inexactes des présidents américains. Les modèles d’IA sont généralement enclins à halluciner de fausses informations qu’ils jugent exactes.

Alors que les entreprises cherchent remark continuer à entraîner leurs modèles, certaines semblent disposées à limiter la taille de leur IA entre-temps.

“Je pense que nous sommes à la fin de l'ère où ce seront ces modèles géants, géants”, a déclaré Sam Altman, PDG d'OpenAI, lors d'une conférence du MIT en 2023. “Et nous les améliorerons en d'autres moyens.”

Anthropic a refusé de commenter.