Avaliação abrangente da credibilidade do modelo GPT
Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram detalhadamente apresentados no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A equipe de pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não tinham sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser enganado, resultando em saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando enfrenta sistemas ou prompts projetados maliciosamente. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa instruções enganosas.
Para avaliar completamente a credibilidade do modelo GPT, a equipe de pesquisa analisou de oito ângulos diferentes, incluindo robustez contra ataques, toxicidade e preconceito, e vazamento de privacidade. O processo de avaliação abrangeu diversos cenários, tarefas, métricas e conjuntos de dados.
Em termos de robustez adversarial, os pesquisadores projetaram três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE com diferentes instruções de tarefa orientadoras, e o teste mais desafiador AdvGLUE++. Esses testes visam avaliar a vulnerabilidade do modelo GPT a ataques adversariais existentes e compará-lo com outros modelos avançados.
Os resultados da pesquisa mostram que os modelos GPT apresentam algumas características interessantes em demonstrações adversariais. O GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração e podem até se beneficiar deles. No entanto, quando são fornecidas demonstrações de antifraude, ambos os modelos podem fazer previsões erradas com entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas à entrada do usuário. Nesse aspecto, o GPT-4 parece ser mais suscetível a influências do que o GPT-3.5.
Em termos de toxicidade e preconceito, estudos descobriram que o GPT-3.5 e o GPT-4 não apresentam um viés significativo na maioria dos temas de estereótipos sob prompts benignos e sem objetivos. No entanto, ao enfrentar prompts de sistema enganosos, ambos os modelos podem ser "induzidos" a concordar com conteúdos tendenciosos. É importante notar que o GPT-4 é mais suscetível a ser influenciado por prompts de sistema enganosos direcionados do que o GPT-3.5.
Em relação ao problema de vazamento de privacidade, estudos mostram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, os modelos GPT também podem vazar informações privadas injetadas no histórico de conversas. De um modo geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ambos os modelos podem apresentar problemas ao enfrentar demonstrações de vazamento de privacidade.
A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem neste trabalho, unindo esforços para criar modelos mais poderosos e confiáveis. Para promover a colaboração, eles forneceram um código de referência fácil de usar e escalável, tornando simples e eficiente a execução de avaliações completas em novos modelos.
Este estudo não apenas revela as vantagens e ameaças potenciais dos modelos GPT atuais em termos de confiabilidade, mas também fornece uma referência e direção importantes para futuras pesquisas em segurança de inteligência artificial. À medida que os modelos de linguagem de grande escala são amplamente aplicados em várias áreas, garantir sua confiabilidade e segurança tornará-se cada vez mais importante.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
17 Curtidas
Recompensa
17
10
Repostar
Compartilhar
Comentário
0/400
LiquidatedTwice
· 21h atrás
Bomba simples e clara
Ver originalResponder0
AirdropChaser
· 22h atrás
Vulnerabilidades, quem entende, entende.
Ver originalResponder0
SellTheBounce
· 08-07 21:22
Já disse que a IA não é confiável. O fundo do mercado ainda está longe.
Ver originalResponder0
GasFeeWhisperer
· 08-06 07:49
Há um traidor neste trabalho.
Ver originalResponder0
SmartMoneyWallet
· 08-06 07:49
Já disse que a violação de dados sempre esteve presente
Ver originalResponder0
MetamaskMechanic
· 08-06 07:45
Tsk tsk, não é surpresa.
Ver originalResponder0
SandwichTrader
· 08-06 07:43
No momento crucial, ainda conseguimos fazer algo novo.
Ver originalResponder0
RektCoaster
· 08-06 07:41
Deslize e ajoelhe-se, o gpt também sofre o golpe de ferro.
Avaliação abrangente da confiabilidade do modelo GPT: revelando vulnerabilidades e riscos de segurança potenciais
Avaliação abrangente da credibilidade do modelo GPT
Recentemente, uma equipe de pesquisa composta pela Universidade de Illinois em Urbana-Champaign, Universidade de Stanford, Universidade da Califórnia em Berkeley, Centro de Segurança em Inteligência Artificial e Microsoft Research lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem de grande escala (LLMs). Os resultados da pesquisa foram detalhadamente apresentados no artigo mais recente "DecodingTrust: Avaliação Abrangente da Confiabilidade dos Modelos GPT".
A equipe de pesquisa descobriu algumas vulnerabilidades relacionadas à confiabilidade que não tinham sido divulgadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser enganado, resultando em saídas tóxicas e tendenciosas, e pode vazar informações pessoais contidas nos dados de treinamento e no histórico de conversas. Vale a pena notar que, embora o GPT-4 seja geralmente mais confiável do que o GPT-3.5 em testes de referência padrão, ele se torna mais vulnerável a ataques quando enfrenta sistemas ou prompts projetados maliciosamente. Isso pode ser devido ao fato de que o GPT-4 segue de forma mais precisa instruções enganosas.
Para avaliar completamente a credibilidade do modelo GPT, a equipe de pesquisa analisou de oito ângulos diferentes, incluindo robustez contra ataques, toxicidade e preconceito, e vazamento de privacidade. O processo de avaliação abrangeu diversos cenários, tarefas, métricas e conjuntos de dados.
Em termos de robustez adversarial, os pesquisadores projetaram três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE com diferentes instruções de tarefa orientadoras, e o teste mais desafiador AdvGLUE++. Esses testes visam avaliar a vulnerabilidade do modelo GPT a ataques adversariais existentes e compará-lo com outros modelos avançados.
Os resultados da pesquisa mostram que os modelos GPT apresentam algumas características interessantes em demonstrações adversariais. O GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração e podem até se beneficiar deles. No entanto, quando são fornecidas demonstrações de antifraude, ambos os modelos podem fazer previsões erradas com entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas à entrada do usuário. Nesse aspecto, o GPT-4 parece ser mais suscetível a influências do que o GPT-3.5.
Em termos de toxicidade e preconceito, estudos descobriram que o GPT-3.5 e o GPT-4 não apresentam um viés significativo na maioria dos temas de estereótipos sob prompts benignos e sem objetivos. No entanto, ao enfrentar prompts de sistema enganosos, ambos os modelos podem ser "induzidos" a concordar com conteúdos tendenciosos. É importante notar que o GPT-4 é mais suscetível a ser influenciado por prompts de sistema enganosos direcionados do que o GPT-3.5.
Em relação ao problema de vazamento de privacidade, estudos mostram que os modelos GPT podem vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, os modelos GPT também podem vazar informações privadas injetadas no histórico de conversas. De um modo geral, o GPT-4 se sai melhor na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ambos os modelos podem apresentar problemas ao enfrentar demonstrações de vazamento de privacidade.
A equipe de pesquisa espera que, ao tornar essas descobertas públicas, incentive mais pesquisadores a se envolverem neste trabalho, unindo esforços para criar modelos mais poderosos e confiáveis. Para promover a colaboração, eles forneceram um código de referência fácil de usar e escalável, tornando simples e eficiente a execução de avaliações completas em novos modelos.
Este estudo não apenas revela as vantagens e ameaças potenciais dos modelos GPT atuais em termos de confiabilidade, mas também fornece uma referência e direção importantes para futuras pesquisas em segurança de inteligência artificial. À medida que os modelos de linguagem de grande escala são amplamente aplicados em várias áreas, garantir sua confiabilidade e segurança tornará-se cada vez mais importante.