Les étudiants voudront peut-être réfléchir à deux fois avant d’utiliser un chatbot pour terminer leur prochain devoir. Les modèles de langage qui génèrent du texte en réponse aux invitations de l’utilisateur plagient le contenu de plusieurs façons, selon une équipe de recherche dirigée par l’État de Penn qui a mené la première étude pour examiner directement le phénomène.
“Le plagiat a différentes saveurs”, a déclaré Dongwon Lee, professeur de sciences et systems de l’information à Penn Point out. “Nous voulions voir si les modèles de langage non seulement copient et collent, mais recourent à des formes in addition sophistiquées de plagiat sans s’en rendre compte.”
Les chercheurs se sont concentrés sur l’identification de trois formes de plagiat : textuellement. auto les données de development du modèle linguistique sont disponibles en ligne, ce qui permet aux chercheurs de comparer les textes générés aux 8 thousands and thousands de files utilisés pour pré-entraîner GPT-2.
Les scientifiques ont utilisé 210 000 textes générés pour tester le plagiat dans des modèles de langage pré-formés et des modèles de langage affinés, ou des modèles formés davantage pour se concentrer sur des domaines thématiques spécifiques. Dans ce cas, l’équipe a affiné trois modèles de langage pour se concentrer sur les files scientifiques, les articles universitaires liés au COVID-19 et les revendications de brevet. Ils ont utilisé un moteur de recherche open source pour récupérer les 10 documents de development les furthermore similaires à chaque texte généré et ont modifié un algorithme d’alignement de texte existant pour mieux détecter les cas de plagiat textuel.
L’équipe a constaté que les modèles linguistiques commettaient les trois varieties de plagiat et que furthermore l’ensemble de données et les paramètres utilisés pour former le modèle étaient volumineux, plus le plagiat était fréquent. Ils ont également noté que des modèles de langage affinés réduisaient le plagiat textuel. En outre, ils ont identifié des exemples du modèle linguistique exposant les informations privées des individus à travers les trois formes de plagiat. Les chercheurs présenteront leurs conclusions lors de la conférence Net ACM 2023, qui se tiendra du 30 avril au 4 mai à Austin, au Texas.
“Les gens recherchent de grands modèles de langage parce que plus le modèle est grand. a déclaré l’auteur principal Jooyoung Lee, doctorant au Collège des sciences et technologies de l’information de Penn Condition. “En même temps, ils compromettent l’originalité et la créativité du contenu du corpus de formation. C’est un constat significant.”
L’étude souligne la nécessité de poursuivre les recherches sur les générateurs de textes et les inquiries éthiques et philosophiques qu’ils posent, selon les chercheurs.
“Même si le résultat peut être attrayant et que les modèles de langage peuvent être amusants à utiliser et sembler productifs pour certaines tâches, cela ne signifie pas qu’ils sont pratiques”, a déclaré Thai Le, professeur adjoint d’informatique et de sciences de l’information à l’Université du Mississippi. qui a commencé à travailler sur le projet en tant que doctorant à Penn Condition. “En pratique, nous devons nous occuper des problèmes d’éthique et de droit d’auteur que posent les générateurs de texte.”
Cependant, les checks de plagiat dépendent des développeurs qui rendent les données de development accessibles au general public, ont déclaré les chercheurs.
L’étude actuelle peut aider les chercheurs en IA à construire des modèles de langage plus robustes, fiables et responsables à l’avenir, selon les scientifiques. Pour l’instant, ils exhortent les individus à faire preuve de prudence lors de l’utilisation de générateurs de texte.
“Les chercheurs et les scientifiques de l’IA étudient remark rendre les modèles de langage meilleurs et plus robustes, tandis que de nombreuses personnes utilisent des modèles de langage dans leur vie quotidienne pour diverses tâches de productivité”, a déclaré Jinghui Chen, professeur adjoint de sciences et systems de l’information à Penn Condition. “Bien que tirer parti des modèles de langage en tant que moteur de recherche ou débordement de pile pour déboguer le code est probablement suitable, à d’autres fins, étant donné que le modèle de langage peut produire un contenu plagié, cela peut entraîner des conséquences négatives pour l’utilisateur.”
Le résultat du plagiat n’est pas quelque chose d’inattendu, a ajouté Dongwon Lee.
“En tant que perroquet stochastique. a-t-il déclaré. “Maintenant. et nous avons un prolonged chemin à parcourir.”
La Nationwide Science Basis a soutenu ce travail.