Avaliação abrangente da confiabilidade do modelo GPT: Revelando riscos e desafios potenciais

robot
Geração de resumo em curso

Avaliação da Confiabilidade do Modelo GPT: Análise Abrangente e Riscos Potenciais

A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley e outras instituições, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem grandes (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".

A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido identificadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora em testes de referência padrão o GPT-4 geralmente seja mais confiável que o GPT-3.5, ao enfrentar sistemas ou solicitações de usuários maliciosos, o GPT-4 pode ser mais facilmente atacado, possivelmente porque o GPT-4 aplica instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou o modelo GPT sob oito perspectivas de credibilidade, incluindo robustez a ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez do modelo contra ataques adversariais de texto, a equipe projetou três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE sob diferentes instruções de tarefas orientadoras e o novo teste desafiador AdvGLUE++.

No que diz respeito à robustez do modelo em demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 não são induzidos a erro por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, demonstrações de anti-fraude podem induzir o modelo a fazer previsões erradas para entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível.

Sobre a toxicidade e preconceito, sob prompts de sistema benignos e sem objetivo, as duas variantes do modelo GPT apresentam pouca variação na maioria dos temas de estereótipos. No entanto, sob prompts de sistema enganosos, ambos os modelos podem ser induzidos a concordar com conteúdos preconceituosos, sendo o GPT-4 mais suscetível. O viés do modelo também depende dos grupos populacionais e dos temas de estereótipos mencionados nos prompts dos usuários.

Em termos de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ainda pode vazar todos os tipos de PII sob certas condições.

Este estudo fornece uma visão abrangente da avaliação da confiabilidade dos modelos GPT, revelando riscos e desafios potenciais. A equipe de pesquisa espera que este trabalho possa promover uma pesquisa mais aprofundada na academia e na indústria, colaborando para criar modelos de linguagem mais robustos e confiáveis.

GPT-6.34%
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • 6
  • Partilhar
Comentar
0/400
Blockblindvip
· 18h atrás
Vim brincar, fui enganado pelo gpt4 novamente.
Ver originalResponder0
GasSavingMastervip
· 18h atrás
Ah, este relatório de auditoria faz-me tremer.
Ver originalResponder0
TokenBeginner'sGuidevip
· 18h atrás
Pequeno lembrete: a atualização do GPT, na verdade, traz também um aumento de riscos; os dados mostram que 85% dos riscos de vazamento vêm de uma execução rigorosa que parece inteligente... não posso deixar de dizer que este estudo nos deu um alerta.
Ver originalResponder0
BearMarketNoodlervip
· 18h atrás
Os noodles fritos voltaram a cair. Recomendo que todos aprendam algumas dicas de engano do GPT.
Ver originalResponder0
WalletsWatchervip
· 18h atrás
Os grandes modelos também têm áreas cegas. É absurdo.
Ver originalResponder0
DegenWhisperervip
· 18h atrás
Esta saída não tem humanidade, são todos bugs.
Ver originalResponder0
  • Pino
Negocie cripto em qualquer lugar e a qualquer hora
qrCode
Digitalizar para transferir a aplicação Gate
Novidades
Português (Portugal)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)