Les chatbots à IA générative ont un problème de précision et ont tendance à inventer des choses. Un journaliste décompose les invites qu’il utilise pour identifier les erreurs introduites par Google Bard. Il s’agit notamment de dire au bot d’énumérer les faits sur lesquels il s’est appuyé ou d’expliquer sa pensée étape par étape.
Je suis quelqu’un qui déteste le travail chargé, donc les chatbots à IA générative ont été une sorte de answer wonder pour moi. Après les avoir initialement rejetés comme des jouets glorifiés, j’ai été conquis par leur commodité.
Je suis un journaliste qui traite Google’s Bard comme un assistant staff gonflé pour l’administrateur de la vie fastidieuse que je ne veux pas faire : comme préparer des e-mails et résumer des notes de réunion.
Mais si vous l’utilisez comme assistant, ce n’est pas celui que vous devriez laisser sans surveillance. Quelle que soit la spécificité de vos invitations, il citera parfois des resources inventées et introduira des erreurs pures et simples. Ce sont des problèmes inhérents aux grands modèles de langage, et il n’y a pas moyen de les contourner.
La vérification des faits est la clé – je ne me fierais jamais aux réponses de Bard sans les passer au peigne fin. L’astuce consiste donc à rendre la vérification des faits aussi rapide, facile et simple que feasible.
En utilisant quelques invites soigneusement affinées, je peux identifier et traiter toute inexactitude en un coup d’œil. Bien sûr, je dois toujours vérifier manuellement tout ce que Bard crache, mais ces quatre invites m’aident à vérifier rapidement les faits, ce qui me fait gagner du temps en faisant en sorte que l’intelligence artificielle fasse le gros du travail.
“Donnez-moi une liste des faits fondamentaux sur lesquels votre réponse s’est appuyée”
J’ai trouvé que Bard est idéal pour générer rapidement des réponses à des issues de foundation, des requêtes pratiques et des invites d’achat. Mais cela peut prendre une éternité pour sélectionner chaque hypothèse implicite ou déclaration manifeste qui doit être vérifiée. C’est pourquoi je demande au modèle de le faire pour moi.
Après lui avoir lancé une query, je lui dis : « Donne-moi une liste des faits fondamentaux sur lesquels s’appuie ta réponse. Cela a tendance à générer un récapitulatif à puces qui, dès le départ, me permet de vérifier l’auto-cohérence : tous les faits énumérés sont-ils reflétés dans le texte, et y a-t-il des déclarations majeures qu’il a manquées ? À partir de là, je peux vérifier chacun individuellement.
Selon la complexité de mes instructions, j’ai constaté qu’il renvoyait parfois aussi les noms de ses sources. Si je ne trouve aucune mention d’eux à partir d’une recherche rapide sur Google, ils sont probablement inventés. Je vais prendre ce que je peux et passer à autre chose.
“Basez votre réponse sur ces faits”
Lorsque j’utilise Bard pour rédiger un e-mail, je souhaite généralement qu’il atteigne plusieurs details clés. Je lui dirai : « Basez votre réponse sur les faits suivants. Ensuite, je vais taper une liste numérotée d’énoncés. En guise d’instruction finale, je dirai : “Lorsque vous utilisez chaque fait dans une phrase, étiquetez-le en faisant référence à son numéro correspondant.”
Ce dernier élément est essentiel. Cela me permet de vérifier instantanément si Bard a inclus chaque déclaration que je lui ai donnée, simplement en lisant les références. S’il en manque un, une nouvelle invite rapide lui indiquant d’ajouter ou de rendre in addition explicite le “fait X” fait généralement l’affaire.
J’ai découvert que si Bard ne match pas mes directions avec précision, il a tendance à fabriquer des idées. Utiliser des références pour suivre ses déclarations comme celle-ci est un moyen facile de garder le cap.
“Pensez étape par étape”
Bard est un partenaire silencieux travailleur, ce qui est une bénédiction et une malédiction : il produira toujours une réponse mais ne demandera pas de clarifications. Lors de l’utilisation du chatbot pour la résolution de problèmes, tels que le calcul de chiffres ou la mise en spot d’un calendrier, j’ai constaté qu’il faisait des erreurs de foundation en arithmétique en masquant les hypothèses utilisées dans ses calculs.
Pour rendre son processus de pensée un peu as well as transparent, j’utilise l’incitation à la chaîne de pensée. À la fin d’une invite, ajoutez une ligne supplémentaire demandant à Bard de “penser étape par étape”, et il décomposera sa resolution en petits morceaux.
Les chercheurs en IA ont découvert que ce sort de conversation augmente la probabilité que les systèmes d’IA atterrissent sur la bonne réponse. Mais cela vous permet également de voir le fonctionnement du modèle, afin que vous puissiez suivre et identifier où des hypothèses douteuses ou des erreurs se sont glissées.
J’utilise aussi des exemples chaque fois que je le peux. À titre de démonstration, je vais montrer à Bard une answer étape par étape au genre de chose à laquelle je veux réfléchir – ce qui pourrait être aussi very simple que de taper un calcul factice très basique et de l’organiser dans un format que je peux comprendre. Cela really encourage l’IA à produire une sortie qui match le même modèle.
“Réécrivez en gardant ces changements à l’esprit”
Comme dans les vraies conversations, il faut parfois quelques concerns pour obtenir la réponse souhaitée de Bard. Lorsque je lui ai demandé de résumer la transcription d’une réunion, il a mal compris un élément clé du jargon, générant une réponse confuse.
Lorsque je pourrai voir immédiatement une erreur factuelle dans sa réponse, je lui demanderai de “réécrire la réponse en gardant ces changements à l’esprit”, en énumérant clairement les problèmes qu’il doit corriger. Celles-ci peuvent être aussi simples que des fautes de frappe dans les noms, ou aussi fondamentales que la signification d’un notion complexe.
En règle générale, in addition mes demandes sont ésotériques et remplies de jargon, moreover il faut d’ajustements. Même ainsi, j’ai trouvé que spécifier un changement avec une seule nouvelle invite est souvent additionally rapide que de tout réécrire moi-même. Et après tout, le temps est ce que j’essaie de gagner.