Pourquoi les chatbots IA ont-ils tendance à halluciner, selon des experts du domaine

Les chercheurs d’OpenAI ont identifié les causes des « hallucinations » dans les modèles de langage, ces situations où ils génèrent des informations inexactes en toute confiance. Ils plaident pour une refonte des méthodes d’évaluation afin d’améliorer la précision et réduire ces anomalies.

Les hallucinations : un défi persistant

Les modèles de grande langue (LLM), comme le GPT-5 d’OpenAI et Claude d’Anthropic, souffrent fréquemment de ce phénomène appelé « hallucinations ». Celles-ci se produisent lorsque ces modèles présentent des données erronées avec assurance. Dans un article publié jeudi, OpenAI a révélé que cette problématique est liée aux méthodes de formation basées sur l’incitation à deviner plutôt qu’à exprimer l’incertitude.

Les hallucinations persistent en raison de la façon dont la plupart des évaluations sont classées

Les modèles de langue sont optimisés pour être de bons candidats et deviner quand incertain améliore les performances des tests, précisent les chercheurs.

L’idée fausse du « mode test » permanent

OpenAI affirme que ces LLM fonctionnent souvent en mode test, où chaque question semble avoir une seule réponse correcte. Ce fonctionnement binaire ne correspond pas à la réalité complexe dans laquelle l’incertitude prédomine souvent.

Les humains apprennent la valeur d’exprimer l’incertitude en dehors de l’école, à l’école des coups durs

D’un autre côté, les modèles de langue sont principalement évalués à l’aide d’exams qui pénalisent l’incertitude, soulignent-ils.

Une solution à portée de main

La bonne nouvelle réside dans une possibilité d’amélioration par le biais du changement des mesures d’évaluation actuelles. OpenAI fait remarquer que « le problème racine est l’abondance d’évaluations qui ne sont pas alignées ». Il devient nécessaire que les évaluations soient ajustées pour encourager moins les suppositions incorrectes lors des réponses incertaines.

Dans cet esprit, OpenAI propose

Les évals largement utilisés et basés sur la précision doivent être mis à jour afin que leur score décourage la devinette. Si les principaux tableaux de bord restent enrichissants, les modèles continueront d’apprendre à deviner.

Ce constat ouvre une voie vers une optimisation plus précise et fiable des LLM qui pourraient mieux refléter la complexité du savoir humain.

Suivez-nous sur Google News

Pourquoi les chatbots IA ont-ils tendance à halluciner, selon des experts du domaine

Les hallucinations : un défi persistant

Les hallucinations persistent en raison de la façon dont la plupart des évaluations sont classées

L’idée fausse du « mode test » permanent

Les humains apprennent la valeur d’exprimer l’incertitude en dehors de l’école, à l’école des coups durs

Une solution à portée de main

Dans cet esprit, OpenAI propose

Les meilleures offres de laptops pour le Prime Day : plus de 200 $ de rabais sur HP, Apple, Acer et autres marques

Vianney dévoile les images de la construction de sa cabane, un refuge pour se ressourcer : 'Pas expérimenté'

Vianney intègre les célèbres personnalités du Musée Grévin

Vianney dévoile un adorable message de son fils Edgar en plein chantier

Diffusion de « Malcolm in the Middle : Life's Still Unfair » sur Hulu en 2026

OpenAI en alerte rouge : protéger le système, retarder les bénéfices

Découvrez où voir les meilleurs films de 2025, alors que les tendances Google 2023 sont révélées

Ice Spice et Tokischa dansent en République dominicaine pour le clip « Thootie »