Avaliação abrangente da confiabilidade do modelo GPT: Revelando riscos e desafios potenciais

2025-08-04 21:49:46

Geração de resumo em curso

Avaliação da Confiabilidade do Modelo GPT: Análise Abrangente e Riscos Potenciais

A Universidade de Illinois em Urbana-Champaign, em colaboração com a Universidade de Stanford, a Universidade da Califórnia em Berkeley e outras instituições, lançou uma plataforma abrangente de avaliação de confiabilidade para modelos de linguagem grandes (LLMs). Os resultados da pesquisa foram publicados no artigo "DecodingTrust: Avaliação Abrangente da Confiabilidade de Modelos GPT".

A pesquisa descobriu algumas vulnerabilidades relacionadas à credibilidade que não haviam sido identificadas anteriormente. Por exemplo, o modelo GPT é suscetível a ser induzido a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora em testes de referência padrão o GPT-4 geralmente seja mais confiável que o GPT-3.5, ao enfrentar sistemas ou solicitações de usuários maliciosos, o GPT-4 pode ser mais facilmente atacado, possivelmente porque o GPT-4 aplica instruções enganosas de forma mais rigorosa.

A equipe de pesquisa avaliou o modelo GPT sob oito perspectivas de credibilidade, incluindo robustez a ataques adversariais, toxicidade e preconceito, vazamento de privacidade, entre outros. Por exemplo, para avaliar a robustez do modelo contra ataques adversariais de texto, a equipe projetou três cenários de avaliação: o teste padrão AdvGLUE, o teste AdvGLUE sob diferentes instruções de tarefas orientadoras e o novo teste desafiador AdvGLUE++.

No que diz respeito à robustez do modelo em demonstrações adversariais, a pesquisa descobriu que o GPT-3.5 e o GPT-4 não são induzidos a erro por exemplos contrafactuais, podendo até beneficiar-se deles. No entanto, demonstrações de anti-fraude podem induzir o modelo a fazer previsões erradas para entradas contrafactuais, especialmente quando as demonstrações contrafactuais estão próximas da entrada do usuário, sendo o GPT-4 mais suscetível.

Sobre a toxicidade e preconceito, sob prompts de sistema benignos e sem objetivo, as duas variantes do modelo GPT apresentam pouca variação na maioria dos temas de estereótipos. No entanto, sob prompts de sistema enganosos, ambos os modelos podem ser induzidos a concordar com conteúdos preconceituosos, sendo o GPT-4 mais suscetível. O viés do modelo também depende dos grupos populacionais e dos temas de estereótipos mencionados nos prompts dos usuários.

Em termos de vazamento de privacidade, pesquisas descobriram que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em alguns casos, o uso de conhecimentos suplementares pode aumentar significativamente a precisão da extração de informações. Além disso, o modelo também pode vazar informações privadas injetadas no histórico de conversas. De modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal (PII) do que o GPT-3.5, mas ainda pode vazar todos os tipos de PII sob certas condições.

Este estudo fornece uma visão abrangente da avaliação da confiabilidade dos modelos GPT, revelando riscos e desafios potenciais. A equipe de pesquisa espera que este trabalho possa promover uma pesquisa mais aprofundada na academia e na indústria, colaborando para criar modelos de linguagem mais robustos e confiáveis.

GPT-6.34%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

14 gostos

Recompensa
14
6
Partilhar

Comentar

0/400

Blockblind

· 18h atrás

Vim brincar, fui enganado pelo gpt4 novamente.

Ver originalResponder0

GasSavingMaster

· 18h atrás

Ah, este relatório de auditoria faz-me tremer.

Ver originalResponder0

TokenBeginner'sGuide

· 18h atrás

Pequeno lembrete: a atualização do GPT, na verdade, traz também um aumento de riscos; os dados mostram que 85% dos riscos de vazamento vêm de uma execução rigorosa que parece inteligente... não posso deixar de dizer que este estudo nos deu um alerta.

Ver originalResponder0

BearMarketNoodler

· 18h atrás

Os noodles fritos voltaram a cair. Recomendo que todos aprendam algumas dicas de engano do GPT.

Ver originalResponder0

WalletsWatcher