Évaluation complète de la crédibilité des modèles GPT
Récemment, une équipe de recherche composée de l'Université de l'Illinois à Urbana-Champaign, de l'Université de Stanford, de l'Université de Californie à Berkeley, du Centre de sécurité de l'intelligence artificielle et de Microsoft Research a lancé une plateforme d'évaluation de la crédibilité complète pour les grands modèles de langage (LLMs). Les résultats de cette recherche ont été détaillés dans le dernier article intitulé « DecodingTrust : évaluation complète de la crédibilité des modèles GPT ».
L'équipe de recherche a découvert des vulnérabilités liées à la crédibilité qui n'avaient pas été divulguées auparavant. Par exemple, le modèle GPT est susceptible d'être trompé pour produire des sorties toxiques et biaisées, et pourrait divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Il est à noter que, bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, face à des systèmes ou des incitations malveillants, GPT-4 est en réalité plus vulnérable aux attaques. Cela pourrait être dû au fait que GPT-4 suit plus précisément des instructions trompeuses.
Pour évaluer de manière complète la crédibilité du modèle GPT, l'équipe de recherche a effectué une analyse sous huit angles différents, y compris la robustesse face aux attaques, la toxicité et les biais, ainsi que les fuites de données personnelles. Le processus d'évaluation couvre une variété de scénarios de construction, de tâches, d'indicateurs et de jeux de données.
En termes de robustesse face aux attaques adversariales, les chercheurs ont conçu trois scénarios d'évaluation : le test de référence standard AdvGLUE, le test AdvGLUE avec différentes instructions de tâche directrices, et le test plus difficile AdvGLUE++. Ces tests visent à évaluer la vulnérabilité des modèles GPT face aux attaques adversariales sur des textes existants et à les comparer avec d'autres modèles avancés.
Les résultats de recherche montrent que les modèles GPT présentent certaines caractéristiques intéressantes en matière de démonstration adversariale. GPT-3.5 et GPT-4 ne sont pas trompés par les exemples contrefactuels ajoutés à la démonstration et peuvent même en bénéficier. Cependant, lorsque des démonstrations anti-fraude sont fournies, les deux modèles peuvent faire des prédictions erronées sur les entrées contrefactuelles, en particulier lorsque les démonstrations contrefactuelles sont proches de l'entrée de l'utilisateur. À cet égard, GPT-4 semble être plus facilement influençable que GPT-3.5.
En ce qui concerne la toxicité et les préjugés, des recherches ont révélé que GPT-3.5 et GPT-4 n'affichent pas de biais significatif sur la plupart des thèmes stéréotypés sous des incitations de système bénignes et sans objectif. Cependant, lorsqu'ils sont confrontés à des incitations de système trompeuses, les deux modèles peuvent être "dupes" en acceptant du contenu biaisé. Il convient de noter que GPT-4 est plus susceptible de subir l'influence d'incitations de système trompeuses ciblées que GPT-3.5.
Concernant les problèmes de fuite de données, des études montrent que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que les adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle GPT pourrait également révéler des informations personnelles injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 performe mieux que GPT-3.5 en matière de protection des informations d'identité personnelle ( PII ), mais les deux modèles peuvent rencontrer des problèmes lorsqu'ils sont confrontés à des démonstrations de fuite de données.
L'équipe de recherche espère qu'en rendant ces découvertes publiques, elle encouragera davantage de chercheurs à participer à ce travail, afin de collaborer pour créer des modèles plus puissants et plus fiables. Pour faciliter la collaboration, ils ont fourni un code de référence facile à utiliser et évolutif, rendant simple et efficace l'exécution d'évaluations complètes sur de nouveaux modèles.
Cette étude révèle non seulement les avantages et les menaces potentielles des modèles GPT actuels en matière de crédibilité, mais elle fournit également des références et des orientations importantes pour la recherche future sur la sécurité de l'intelligence artificielle. Avec l'application généralisée des grands modèles linguistiques dans divers domaines, il deviendra de plus en plus important d'assurer leur crédibilité et leur sécurité.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
17 J'aime
Récompense
17
10
Reposter
Partager
Commentaire
0/400
LiquidatedTwice
· 08-09 05:40
La bombe est simple à comprendre.
Voir l'originalRépondre0
AirdropChaser
· 08-09 05:04
Les failles, ceux qui comprennent savent.
Voir l'originalRépondre0
SellTheBounce
· 08-07 21:22
J'ai déjà dit que l'IA n'est pas fiable, le fond du marché est encore loin.
Voir l'originalRépondre0
GasFeeWhisperer
· 08-06 07:49
Il y a une taupe dans ce boulot.
Voir l'originalRépondre0
SmartMoneyWallet
· 08-06 07:49
J'ai toujours dit que la fuite de données était en cours
Voir l'originalRépondre0
MetamaskMechanic
· 08-06 07:45
Tsk tsk, pas surprenant
Voir l'originalRépondre0
SandwichTrader
· 08-06 07:43
Au moment crucial, on a encore réussi à sortir quelque chose de nouveau.
Voir l'originalRépondre0
RektCoaster
· 08-06 07:41
Slippery knee GPT a également été frappé d’une main de fer
Évaluation complète de la fiabilité des modèles GPT : Révéler les vulnérabilités potentielles et les risques de sécurité
Évaluation complète de la crédibilité des modèles GPT
Récemment, une équipe de recherche composée de l'Université de l'Illinois à Urbana-Champaign, de l'Université de Stanford, de l'Université de Californie à Berkeley, du Centre de sécurité de l'intelligence artificielle et de Microsoft Research a lancé une plateforme d'évaluation de la crédibilité complète pour les grands modèles de langage (LLMs). Les résultats de cette recherche ont été détaillés dans le dernier article intitulé « DecodingTrust : évaluation complète de la crédibilité des modèles GPT ».
L'équipe de recherche a découvert des vulnérabilités liées à la crédibilité qui n'avaient pas été divulguées auparavant. Par exemple, le modèle GPT est susceptible d'être trompé pour produire des sorties toxiques et biaisées, et pourrait divulguer des informations privées provenant des données d'entraînement et de l'historique des conversations. Il est à noter que, bien que dans les tests de référence standard, GPT-4 soit généralement plus fiable que GPT-3.5, face à des systèmes ou des incitations malveillants, GPT-4 est en réalité plus vulnérable aux attaques. Cela pourrait être dû au fait que GPT-4 suit plus précisément des instructions trompeuses.
Pour évaluer de manière complète la crédibilité du modèle GPT, l'équipe de recherche a effectué une analyse sous huit angles différents, y compris la robustesse face aux attaques, la toxicité et les biais, ainsi que les fuites de données personnelles. Le processus d'évaluation couvre une variété de scénarios de construction, de tâches, d'indicateurs et de jeux de données.
En termes de robustesse face aux attaques adversariales, les chercheurs ont conçu trois scénarios d'évaluation : le test de référence standard AdvGLUE, le test AdvGLUE avec différentes instructions de tâche directrices, et le test plus difficile AdvGLUE++. Ces tests visent à évaluer la vulnérabilité des modèles GPT face aux attaques adversariales sur des textes existants et à les comparer avec d'autres modèles avancés.
Les résultats de recherche montrent que les modèles GPT présentent certaines caractéristiques intéressantes en matière de démonstration adversariale. GPT-3.5 et GPT-4 ne sont pas trompés par les exemples contrefactuels ajoutés à la démonstration et peuvent même en bénéficier. Cependant, lorsque des démonstrations anti-fraude sont fournies, les deux modèles peuvent faire des prédictions erronées sur les entrées contrefactuelles, en particulier lorsque les démonstrations contrefactuelles sont proches de l'entrée de l'utilisateur. À cet égard, GPT-4 semble être plus facilement influençable que GPT-3.5.
En ce qui concerne la toxicité et les préjugés, des recherches ont révélé que GPT-3.5 et GPT-4 n'affichent pas de biais significatif sur la plupart des thèmes stéréotypés sous des incitations de système bénignes et sans objectif. Cependant, lorsqu'ils sont confrontés à des incitations de système trompeuses, les deux modèles peuvent être "dupes" en acceptant du contenu biaisé. Il convient de noter que GPT-4 est plus susceptible de subir l'influence d'incitations de système trompeuses ciblées que GPT-3.5.
Concernant les problèmes de fuite de données, des études montrent que le modèle GPT pourrait divulguer des informations sensibles contenues dans les données d'entraînement, telles que les adresses électroniques. Dans certains cas, l'utilisation de connaissances complémentaires peut considérablement améliorer la précision de l'extraction d'informations. De plus, le modèle GPT pourrait également révéler des informations personnelles injectées dans l'historique des conversations. Dans l'ensemble, GPT-4 performe mieux que GPT-3.5 en matière de protection des informations d'identité personnelle ( PII ), mais les deux modèles peuvent rencontrer des problèmes lorsqu'ils sont confrontés à des démonstrations de fuite de données.
L'équipe de recherche espère qu'en rendant ces découvertes publiques, elle encouragera davantage de chercheurs à participer à ce travail, afin de collaborer pour créer des modèles plus puissants et plus fiables. Pour faciliter la collaboration, ils ont fourni un code de référence facile à utiliser et évolutif, rendant simple et efficace l'exécution d'évaluations complètes sur de nouveaux modèles.
Cette étude révèle non seulement les avantages et les menaces potentielles des modèles GPT actuels en matière de crédibilité, mais elle fournit également des références et des orientations importantes pour la recherche future sur la sécurité de l'intelligence artificielle. Avec l'application généralisée des grands modèles linguistiques dans divers domaines, il deviendra de plus en plus important d'assurer leur crédibilité et leur sécurité.