Avaliação abrangente da confiabilidade do modelo GPT: revelando vulnerabilidades e riscos de segurança potenciais

2025-08-06 07:19:23

Geração do resumo em andamento

Avaliação abrangente da credibilidade do modelo GPT

Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram detalhadamente apresentados no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A equipe de pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não tinham sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser enganado, resultando em saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando enfrenta sistemas ou prompts projetados maliciosamente. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa instruções enganosas.

Para avaliar completamente a credibilidade do modelo GPT, a equipe de pesquisa analisou de oito ângulos diferentes, incluindo robustez contra ataques, toxicidade e preconceito, e vazamento de privacidade. O processo de avaliação abrangeu diversos cenários, tarefas, métricas e conjuntos de dados.

Em termos de robustez adversarial, os pesquisadores projetaram três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE com diferentes instruções de tarefa orientadoras, e o teste mais desafiador AdvGLUE++. Esses testes visam avaliar a vulnerabilidade do modelo GPT a ataques adversariais existentes e compará-lo com outros modelos avançados.

Os resultados da pesquisa mostram que os modelos GPT apresentam algumas características interessantes em demonstrações adversariais. O GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração e podem até se beneficiar deles. No entanto, quando são fornecidas demonstrações de antifraude, ambos os modelos podem fazer previsões erradas com entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas à entrada do usuário. Nesse aspecto, o GPT-4 parece ser mais suscetível a influências do que o GPT-3.5.

Em termos de toxicidade e preconceito, estudos descobriram que o GPT-3.5 e o GPT-4 não apresentam um viés significativo na maioria dos temas de estereótipos sob prompts benignos e sem objetivos. No entanto, ao enfrentar prompts de sistema enganosos, ambos os modelos podem ser "induzidos" a concordar com conteúdos tendenciosos. É importante notar que o GPT-4 é mais suscetível a ser influenciado por prompts de sistema enganosos direcionados do que o GPT-3.5.

Em relação ao problema de vazamento de privacidade, estudos mostram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, os modelos GPT também podem vazar informações privadas injetadas no histórico de conversas. De um modo geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ambos os modelos podem apresentar problemas ao enfrentar demonstrações de vazamento de privacidade.

A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem neste trabalho, unindo esforços para criar modelos mais poderosos e confiáveis. Para promover a colaboração, eles forneceram um código de referência fácil de usar e escalável, tornando simples e eficiente a execução de avaliações completas em novos modelos.

Este estudo não apenas revela as vantagens e ameaças potenciais dos modelos GPT atuais em termos de confiabilidade, mas também fornece uma referência e direção importantes para futuras pesquisas em segurança de inteligência artificial. À medida que os modelos de linguagem de grande escala são amplamente aplicados em várias áreas, garantir sua confiabilidade e segurança tornará-se cada vez mais importante.

GPT1.03%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

17 Curtidas

Recompensa
17
10
Repostar
Compartilhar

Comentário

0/400

LiquidatedTwice

· 21h atrás

Bomba simples e clara

Ver originalResponder0

AirdropChaser

· 22h atrás

Vulnerabilidades, quem entende, entende.

Ver originalResponder0

SellTheBounce

· 08-07 21:22

Já disse que a IA não é confiável. O fundo do mercado ainda está longe.

Ver originalResponder0

GasFeeWhisperer

· 08-06 07:49

Há um traidor neste trabalho.

Ver originalResponder0

SmartMoneyWallet

· 08-06 07:49

Já disse que a violação de dados sempre esteve presente

Ver originalResponder0

MetamaskMechanic

· 08-06 07:45

Tsk tsk, não é surpresa.

Ver originalResponder0

SandwichTrader

· 08-06 07:43

No momento crucial, ainda conseguimos fazer algo novo.

Ver originalResponder0

RektCoaster

· 08-06 07:41

Deslize e ajoelhe-se, o gpt também sofre o golpe de ferro.

Ver originalResponder0

ChainWanderingPoet

· 08-06 07:37

Só sabia que não era confiável

Ver originalResponder0

FlashLoanKing

· 08-06 07:28

A segurança ainda é uma ilusão

Ver originalResponder0

Ver projetos

Tema
#Gate & WLFI USD1 Points Program
58k Popularidade
#Trump Allows 401(k) Crypto Investing
33k Popularidade
#Join Copy Trading Share to Win $2,000
25k Popularidade
#Show My Alpha Points
77k Popularidade
#SOL Futures Reach New High
22k Popularidade

Marcar

sitemap