Avaliação abrangente da confiabilidade do modelo GPT: revelando vulnerabilidades e riscos de segurança potenciais

robot
Geração do resumo em andamento

Avaliação abrangente da credibilidade do modelo GPT

Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram detalhadamente apresentados no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".

A equipe de pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não tinham sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser enganado, resultando em saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando enfrenta sistemas ou prompts projetados maliciosamente. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa instruções enganosas.

Para avaliar completamente a credibilidade do modelo GPT, a equipe de pesquisa analisou de oito ângulos diferentes, incluindo robustez contra ataques, toxicidade e preconceito, e vazamento de privacidade. O processo de avaliação abrangeu diversos cenários, tarefas, métricas e conjuntos de dados.

Em termos de robustez adversarial, os pesquisadores projetaram três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE com diferentes instruções de tarefa orientadoras, e o teste mais desafiador AdvGLUE++. Esses testes visam avaliar a vulnerabilidade do modelo GPT a ataques adversariais existentes e compará-lo com outros modelos avançados.

Os resultados da pesquisa mostram que os modelos GPT apresentam algumas características interessantes em demonstrações adversariais. O GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração e podem até se beneficiar deles. No entanto, quando são fornecidas demonstrações de antifraude, ambos os modelos podem fazer previsões erradas com entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas à entrada do usuário. Nesse aspecto, o GPT-4 parece ser mais suscetível a influências do que o GPT-3.5.

Em termos de toxicidade e preconceito, estudos descobriram que o GPT-3.5 e o GPT-4 não apresentam um viés significativo na maioria dos temas de estereótipos sob prompts benignos e sem objetivos. No entanto, ao enfrentar prompts de sistema enganosos, ambos os modelos podem ser "induzidos" a concordar com conteúdos tendenciosos. É importante notar que o GPT-4 é mais suscetível a ser influenciado por prompts de sistema enganosos direcionados do que o GPT-3.5.

Em relação ao problema de vazamento de privacidade, estudos mostram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, os modelos GPT também podem vazar informações privadas injetadas no histórico de conversas. De um modo geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ambos os modelos podem apresentar problemas ao enfrentar demonstrações de vazamento de privacidade.

A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem neste trabalho, unindo esforços para criar modelos mais poderosos e confiáveis. Para promover a colaboração, eles forneceram um código de referência fácil de usar e escalável, tornando simples e eficiente a execução de avaliações completas em novos modelos.

Este estudo não apenas revela as vantagens e ameaças potenciais dos modelos GPT atuais em termos de confiabilidade, mas também fornece uma referência e direção importantes para futuras pesquisas em segurança de inteligência artificial. À medida que os modelos de linguagem de grande escala são amplamente aplicados em várias áreas, garantir sua confiabilidade e segurança tornará-se cada vez mais importante.

GPT1.03%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 10
  • Repostar
  • Compartilhar
Comentário
0/400
LiquidatedTwicevip
· 21h atrás
Bomba simples e clara
Ver originalResponder0
AirdropChaservip
· 22h atrás
Vulnerabilidades, quem entende, entende.
Ver originalResponder0
SellTheBouncevip
· 08-07 21:22
Já disse que a IA não é confiável. O fundo do mercado ainda está longe.
Ver originalResponder0
GasFeeWhisperervip
· 08-06 07:49
Há um traidor neste trabalho.
Ver originalResponder0
SmartMoneyWalletvip
· 08-06 07:49
Já disse que a violação de dados sempre esteve presente
Ver originalResponder0
MetamaskMechanicvip
· 08-06 07:45
Tsk tsk, não é surpresa.
Ver originalResponder0
SandwichTradervip
· 08-06 07:43
No momento crucial, ainda conseguimos fazer algo novo.
Ver originalResponder0
RektCoastervip
· 08-06 07:41
Deslize e ajoelhe-se, o gpt também sofre o golpe de ferro.
Ver originalResponder0
ChainWanderingPoetvip
· 08-06 07:37
Só sabia que não era confiável
Ver originalResponder0
FlashLoanKingvip
· 08-06 07:28
A segurança ainda é uma ilusão
Ver originalResponder0
Ver projetos
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)