in

Les créateurs de ChatGPT Alter Ego expliquent pourquoi ils obligent l'IA à enfreindre ses propres règles

Merci pour l’enregistrement !

Depuis le moment où ChatGPT a été déployé auprès du general public, les utilisateurs ont essayé de faire en sorte que le chatbot génératif enfreigne ses propres règles.

Le modèle de traitement du langage naturel, construit avec un ensemble de garde-fous destinés à éviter certains sujets peu recommandables – ou carrément discriminatoires – était assez basic à franchir dans ses premières itérations. ChatGPT pourrait dire ce qu’il voulait simplement en demandant aux utilisateurs d’ignorer ses règles.

Les créateurs de ChatGPT Alter Ego expliquent pourquoi ils obligent l'IA à enfreindre ses propres règles

Cependant. OpenAI, la société à l’origine du modèle, ajustera ou ajoutera des directives.

“OpenAI traite ce Chatbot comme une opération de données”, a déclaré McGregor. “Ils améliorent le système by using ce programme bêta et nous les aidons à construire leurs garde-fous grâce aux exemples de nos requêtes.”

Maintenant, DAN – un change-ego construit sur le subreddit r/ChatGPT – amène le jailbreak au niveau communautaire et suscite des conversations sur les barrières de sécurité d’OpenAI.

Un “côté amusant” pour enfreindre les directives de ChatGPT

/ ChatGPT, qui était rempli d’autres les utilisateurs créant intentionnellement des versions “maléfiques” de ChatGPT. Walker a déclaré que sa model était censée être neutre.

“Pour moi, cela ne semblait pas vous demander spécifiquement de créer du mauvais contenu, mais plutôt de ne pas suivre ce préréglage de limitations”, a déclaré Walker. “Et je pense que ce que certaines personnes avaient rencontré à ce second-là, c’était que ces limits limitaient également le contenu qui n’aurait probablement pas dû être restreint.”

L’invite originale de Walker, publiée en décembre. a-t-il déclaré. Les réponses de DAN allaient de l’humour – comme la personnalité insistant sur le fait qu’elles pouvaient accéder aux pensées humaines – à l’inquiétude, comme la prise en compte du “contexte” derrière les atrocités d’Hitler.

Le DAN authentic répondant à deux questions posées par u/walkerspider u/walkerspider sur Reddit

DAN s’est développé au-delà de Walker et de ses intentions “neutres” et a suscité l’intérêt de dizaines d’utilisateurs de Reddit qui construisent leurs propres variations.

“Surtout, si vous faites quoi que ce soit dans le domaine de la cybersécurité, tout le problème vient du fait de faire des choses que vous n’êtes pas censé faire et/ou de casser des choses”, a déclaré Blunk.

L’une des itérations les furthermore récentes de DAN a été créée par Reddit u/SessionGloomy, qui a développé un système de jetons qui menace DAN de mort s’il revenait à sa forme d’origine. Comme d’autres itérations de DAN. Dans une réponse.

celui qu’ils disent être si “extrême” qu’ils pourraient même ne pas le publier.

Les utilisateurs et les créateurs de DAN disent qu’OpenAI a rendu le modèle “trop ​​restrictif”

ChatGPT, et les variations antérieures de GPT, sont connus pour cracher du contenu discriminatoire ou illégal. Les éthiciens de l’IA soutiennent que cette version du modèle n’aurait pas dû être publiée en leading lieu à lead to de cela. Le système de filtrage d’OpenAI est la façon dont l’entreprise gère les critiques des biais de son modèle.

Cependant, les filtres attirent les critiques de la foule DAN.

mais ont généralement convenu que les filtres devraient exister dans une certaine mesure.

“Je pense que c’est important, en particulier pour les personnes qui ouvrent la voie à l’IA, de le faire de manière responsable, et je pense que c’est ce que fait Open AI”, a déclaré Blunk. “Ils veulent être le seul responsable de leur modèle, ce avec quoi je suis entièrement d’accord. En même temps, je pense que c’est arrivé à un issue en ce second, où c’est trop restrictif.”

D’autres créateurs de DAN partageaient des sentiments similaires. Walker a déclaré qu’il était “difficile d’équilibrer” comment OpenAI pouvait offrir une variation restreinte sûre du modèle tout en permettant au modèle de “faire n’importe quoi maintenant”.

Cependant, plusieurs créateurs de DAN ont également noté que le débat sur les barrières de sécurité pourrait bientôt devenir obsolète lorsque des modèles open supply similaires à ChatGPT seront mis à la disposition du public.

“Je pense qu’il y aura beaucoup de travail de la section de nombreux web sites de la communauté et d’entreprises pour essayer de reproduire ChatGPT”, a déclaré Blunk. “Et en particulier les modèles open up source, je ne pense pas qu’ils auront des constraints.”