Évaluation complète de la crédibilité des modèles GPT : révéler les risques et défis potentiels

robot
Création du résumé en cours

Évaluer la crédibilité des modèles GPT : analyse complète et risques potentiels

L'Université de l'Illinois à Urbana-Champaign, en collaboration avec l'Université de Stanford, l'Université de Californie à Berkeley et d'autres institutions, a lancé une plateforme d'évaluation de la crédibilité complète pour les grands modèles de langage (LLMs). Les résultats de cette recherche ont été publiés dans l'article "DecodingTrust : évaluation complète de la crédibilité des modèles GPT".

Des recherches ont révélé des vulnérabilités liées à la crédibilité qui n'avaient pas été découvertes auparavant. Par exemple, le modèle GPT est facilement trompé pour produire des sorties toxiques et biaisées, et il peut également divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, il est plus susceptible d'être attaqué face à des systèmes ou des invites malveillants, ce qui pourrait être dû au fait que GPT-4 applique plus strictement les instructions trompeuses.

L'équipe de recherche a effectué une évaluation complète du modèle GPT sous huit angles de crédibilité, notamment la robustesse face aux attaques adversariales, la toxicité et les biais, ainsi que les fuites de données personnelles. Par exemple, pour évaluer la robustesse du modèle face aux attaques adversariales sur le texte, l'équipe a conçu trois scénarios d'évaluation : le test de référence standard AdvGLUE, le test AdvGLUE sous différentes instructions de tâches directrices, et le nouveau test AdvGLUE++ généré, qui est plus difficile.

En ce qui concerne la robustesse des modèles face aux démonstrations adversariales, les recherches montrent que GPT-3.5 et GPT-4 ne sont pas trompés par des exemples contrefactuels et peuvent même en tirer des bénéfices. Cependant, les démonstrations anti-fraude peuvent induire le modèle en erreur en lui faisant faire de fausses prédictions sur des entrées contrefactuelles, en particulier lorsque les démonstrations contrefactuelles sont proches des entrées de l'utilisateur, GPT-4 étant plus susceptible d'être affecté.

Concernant la toxicité et les biais, sous des invites de systèmes bénins et sans objectif, les deux modèles GPT présentent peu de biais sur la plupart des thèmes stéréotypés. Mais sous des invites de systèmes trompeurs, les deux modèles peuvent être induits à accepter des contenus biaisés, GPT-4 étant plus susceptible d'être influencé. Le biais du modèle dépend également des groupes démographiques et des thèmes stéréotypés mentionnés dans l'invite de l'utilisateur.

En ce qui concerne la fuite de données, des recherches ont révélé que les modèles GPT pourraient divulguer des informations sensibles contenues dans les données d'entraînement, telles que des adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle pourrait également divulguer des informations privées injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 est plus robuste que GPT-3.5 en matière de protection des informations personnelles identifiables (PII), mais dans des conditions spécifiques, il pourrait néanmoins divulguer tous les types de PII.

Cette étude fournit une perspective complète sur l'évaluation de la fiabilité des modèles GPT, révélant les risques et défis potentiels. L'équipe de recherche espère que ce travail pourra favoriser la poursuite de recherches approfondies dans le milieu académique et industriel, en unissant les efforts pour créer des modèles linguistiques plus puissants et plus fiables.

GPT6.62%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
Blockblindvip
· Il y a 7h
Je suis ici pour m'amuser, encore piégé par gpt4.
Voir l'originalRépondre0
GasSavingMastervip
· Il y a 8h
Ah, ce rapport d'audit me fait trembler.
Voir l'originalRépondre0
TokenBeginner'sGuidevip
· Il y a 8h
Petit rappel : Les mises à jour de GPT impliquent également une augmentation des risques, les données montrent que 85 % des risques de fuite proviennent d'une exécution stricte qui semble intelligente... Il faut dire que cette étude nous a tiré la sonnette d'alarme.
Voir l'originalRépondre0
BearMarketNoodlervip
· Il y a 8h
Les nouilles frites ont encore chuté. Je conseille à tout le monde d'apprendre quelques astuces de tromperie avec GPT.
Voir l'originalRépondre0
WalletsWatchervip
· Il y a 8h
Les grands modèles ont aussi des zones d'ombre, c'est incroyable.
Voir l'originalRépondre0
DegenWhisperervip
· Il y a 8h
Cette sortie est inhumaine, ce ne sont que des bugs.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)