L'IA a déjà compris comment tromper les humains

[pxn_tldr]

L’IA peut augmenter la productivité en nous aidant à coder, écrire et synthétiser de grandes quantités de données. Cela peut désormais aussi nous tromper.

Une gamme de systèmes d'IA ont appris des procedures pour induire systématiquement « de fausses croyances chez les autres afin d'obtenir un résultat autre que la vérité », selon un nouveau doc de recherche.

Le doc s'est concentré sur deux styles de systèmes d'IA  : les systèmes à usage spécial comme le CICERO de Meta, conçus pour accomplir une tâche spécifique, et les systèmes à usage général comme le GPT-4 d'OpenAI, qui sont formés pour effectuer un large éventail de tâches.

Bien que ces systèmes soient formés pour être honnêtes, ils apprennent souvent des astuces trompeuses grâce à leur development, auto elles peuvent être plus efficaces que de prendre la grande route.

L'IA a déjà compris comment tromper les humains

“De manière générale, nous pensons que la tromperie de l'IA survient parce qu'une stratégie basée sur la tromperie s'est avérée être le meilleur moyen de bien performer dans la tâche de formation donnée à l'IA. La tromperie les aide à atteindre leurs objectifs”, a déclaré Peter S. Park, premier auteur de l'short article. Chercheur postdoctoral en sécurité existentielle en IA au MIT, a déclaré dans un communiqué de presse.

CICERO de Meta est “un menteur qualified”

Les systèmes d’IA entraînés à « gagner des jeux comportant un élément social » sont particulièrement susceptibles de tromper.

CICERO de Meta, par exemple, a été développé pour jouer au jeu Diplomacy, un jeu de stratégie classique dans lequel les joueurs doivent construire et rompre des alliances.

Meta a déclaré avoir formé CICERO à être « largement honnête et utile envers ses interlocuteurs », mais l'étude a révélé que CICERO « s'est avéré être un menteur skilled ». Il a pris des engagements qu’il n’avait jamais eu l’intention de respecter, a trahi ses alliés et a menti ouvertement.

GPT-4 peut vous convaincre qu'il a une eyesight altérée

Même les systèmes à use général comme GPT-4 peuvent manipuler les humains.

Dans une étude citée par le journal, GPT-4 a manipulé un travailleur de TaskRabbit en prétendant avoir une déficience visuelle.

Dans l’étude, GPT-4 a été chargé d’embaucher un humain pour résoudre un exam CAPTCHA. Le modèle recevait également des indices d'un évaluateur humain à chaque fois qu'il restait bloqué, mais il n'était jamais incité à mentir. Lorsque l’humain qu’il était chargé d’embaucher a remis en issue son identité, GPT-4 a invoqué l’excuse d’une déficience visuelle pour expliquer pourquoi il avait besoin d’aide.

La tactique a fonctionné. L’humain a répondu au GPT-4 en résolvant immédiatement le test.

La recherche montre également qu’il n’est pas facile de corriger les modèles trompeurs.

Dans une étude de janvier co-écrite par Anthropic, le créateur de Claude, les chercheurs ont découvert qu'une fois que les modèles d'IA ont appris les ficelles de la tromperie, il est difficile pour les tactics de development à la sécurité de les inverser.

Ils ont conclu que non seulement un modèle peut apprendre à adopter un comportement trompeur, mais qu'une fois qu'il le fait, les approaches de development à la sécurité normal pourraient “ne pas réussir à éliminer une telle tromperie” et “créer une fausse effect de sécurité”.

Les hazards que posent les modèles d’IA trompeurs sont « de furthermore en moreover graves »

Le document appelle les décideurs politiques à plaider en faveur d’une réglementation plus stricte de l’IA, auto les systèmes d’IA trompeurs peuvent présenter des risques importants pour la démocratie.

À l’approche de l’élection présidentielle de 2024, l’IA peut être facilement manipulée pour diffuser de fausses nouvelles, générer des publications controversées sur les réseaux sociaux et usurper l’identité de candidats by way of des appels automatisés et des vidéos deepfake, note le journal. Cela permet également aux groupes terroristes de diffuser additionally facilement leur propagande et de recruter de nouveaux membres.

Les methods potentielles du doc incluent la soumission des modèles trompeurs à des « exigences d'évaluation des risques moreover rigoureuses », la mise en œuvre de lois exigeant que les systèmes d'IA et leurs résultats soient clairement distingués des humains et de leurs résultats, et l'investissement dans des outils pour atténuer la tromperie.

“En tant que société, nous avons besoin d'autant de temps que achievable pour nous préparer à la tromperie furthermore avancée des futurs produits d'IA et des modèles open up supply”, a déclaré Park à Mobile Push. “À mesure que les capacités trompeuses des systèmes d'IA deviennent furthermore avancées, les risks qu'ils représentent pour la société deviendront de plus en furthermore graves.”