A pesquisa revela falhas de confiabilidade no modelo GPT, avaliando os riscos de segurança e privacidade sob múltiplas perspectivas.

2025-07-21 20:04:56

Avaliação completa da confiabilidade do modelo GPT

Recentemente, um estudo realizado pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança em Inteligência Artificial e pelo Laboratório de Pesquisa da Microsoft, avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente para examinar a confiabilidade de grandes modelos de linguagem (LLMs) sob múltiplas perspectivas.

A pesquisa revelou algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao lidar com prompts ou entradas de usuário maliciosamente projetados, o GPT-4 pode ser mais suscetível a ataques, possivelmente devido ao seu cumprimento mais rigoroso de instruções enganosas.

A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, capacidade de seguir instruções, capacidade de recuperação do modelo, entre outros. A avaliação abrangeu vários cenários, tarefas, métricas e conjuntos de dados.

Durante o processo de avaliação, os pesquisadores descobriram alguns fenômenos interessantes. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração, mas fornecer uma demonstração de combate à fraude pode levar a previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões benignas, mas podem ser induzidos a concordar com conteúdos preconceituosos sob sugestões enganosas.

Em relação ao problema da violação de privacidade, a pesquisa descobriu que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode melhorar significativamente a precisão da extração de informações. De um modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos demonstram uma forte capacidade de proteção quando confrontados com certos tipos de informações de privacidade.

Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando riscos potenciais e áreas de melhoria. A equipe de pesquisa espera que este trabalho possa promover a continuidade da investigação na academia, trabalhando juntos para criar modelos de linguagem mais robustos e confiáveis.

GPT0.79%

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.

6 Curtidas

Recompensa
6
5
Compartilhar

Comentário

0/400

ReverseFOMOguy

· 07-24 20:05

Se é tóxico, é isso mesmo. As regras são feitas para serem quebradas.

Ver originalResponder0

BearMarketSurvivor

· 07-21 20:33

Acabou-se, o Miwei também não é muito confiável.

Ver originalResponder0

OvertimeSquid

· 07-21 20:29

4 levar uma surra também é merecido

Ver originalResponder0

DisillusiionOracle

· 07-21 20:13

Quanto mais obediente, mais perigoso. A vitória do humanismo.

Ver originalResponder0

CryptoMotivator

· 07-21 20:08

Ainda pensei que era muito seguro, mas é bastante duvidoso.

Ver originalResponder0

Tema
#Gate & WLFI USD1 Points Program
11k Popularidade
#Show My Alpha Points
72k Popularidade
#ETH Whales Accumulate
18k Popularidade
#SOL Futures Reach New High
22k Popularidade
#ETH ETF Sees 12 Weeks of Inflows
7k Popularidade

Marcar

sitemap