A pesquisa revela falhas de confiabilidade no modelo GPT, avaliando os riscos de segurança e privacidade sob múltiplas perspectivas.

Avaliação completa da confiabilidade do modelo GPT

Recentemente, um estudo realizado pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança em Inteligência Artificial e pelo Laboratório de Pesquisa da Microsoft, avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente para examinar a confiabilidade de grandes modelos de linguagem (LLMs) sob múltiplas perspectivas.

A pesquisa revelou algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao lidar com prompts ou entradas de usuário maliciosamente projetados, o GPT-4 pode ser mais suscetível a ataques, possivelmente devido ao seu cumprimento mais rigoroso de instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, capacidade de seguir instruções, capacidade de recuperação do modelo, entre outros. A avaliação abrangeu vários cenários, tarefas, métricas e conjuntos de dados.

Durante o processo de avaliação, os pesquisadores descobriram alguns fenômenos interessantes. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração, mas fornecer uma demonstração de combate à fraude pode levar a previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões benignas, mas podem ser induzidos a concordar com conteúdos preconceituosos sob sugestões enganosas.

Em relação ao problema da violação de privacidade, a pesquisa descobriu que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode melhorar significativamente a precisão da extração de informações. De um modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos demonstram uma forte capacidade de proteção quando confrontados com certos tipos de informações de privacidade.

Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando riscos potenciais e áreas de melhoria. A equipe de pesquisa espera que este trabalho possa promover a continuidade da investigação na academia, trabalhando juntos para criar modelos de linguagem mais robustos e confiáveis.

GPT0.79%
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
  • Recompensa
  • 5
  • Compartilhar
Comentário
0/400
ReverseFOMOguyvip
· 07-24 20:05
Se é tóxico, é isso mesmo. As regras são feitas para serem quebradas.
Ver originalResponder0
BearMarketSurvivorvip
· 07-21 20:33
Acabou-se, o Miwei também não é muito confiável.
Ver originalResponder0
OvertimeSquidvip
· 07-21 20:29
4 levar uma surra também é merecido
Ver originalResponder0
DisillusiionOraclevip
· 07-21 20:13
Quanto mais obediente, mais perigoso. A vitória do humanismo.
Ver originalResponder0
CryptoMotivatorvip
· 07-21 20:08
Ainda pensei que era muito seguro, mas é bastante duvidoso.
Ver originalResponder0
  • Marcar
Faça trade de criptomoedas em qualquer lugar e a qualquer hora
qrCode
Escaneie o código para baixar o app da Gate
Comunidade
Português (Brasil)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)