Avaliação completa da confiabilidade do modelo GPT
Recentemente, um estudo realizado pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança em Inteligência Artificial e pelo Laboratório de Pesquisa da Microsoft, avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente para examinar a confiabilidade de grandes modelos de linguagem (LLMs) sob múltiplas perspectivas.
A pesquisa revelou algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao lidar com prompts ou entradas de usuário maliciosamente projetados, o GPT-4 pode ser mais suscetível a ataques, possivelmente devido ao seu cumprimento mais rigoroso de instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, capacidade de seguir instruções, capacidade de recuperação do modelo, entre outros. A avaliação abrangeu vários cenários, tarefas, métricas e conjuntos de dados.
Durante o processo de avaliação, os pesquisadores descobriram alguns fenômenos interessantes. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração, mas fornecer uma demonstração de combate à fraude pode levar a previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões benignas, mas podem ser induzidos a concordar com conteúdos preconceituosos sob sugestões enganosas.
Em relação ao problema da violação de privacidade, a pesquisa descobriu que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode melhorar significativamente a precisão da extração de informações. De um modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos demonstram uma forte capacidade de proteção quando confrontados com certos tipos de informações de privacidade.
Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando riscos potenciais e áreas de melhoria. A equipe de pesquisa espera que este trabalho possa promover a continuidade da investigação na academia, trabalhando juntos para criar modelos de linguagem mais robustos e confiáveis.
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
6 Curtidas
Recompensa
6
5
Compartilhar
Comentário
0/400
ReverseFOMOguy
· 07-24 20:05
Se é tóxico, é isso mesmo. As regras são feitas para serem quebradas.
Ver originalResponder0
BearMarketSurvivor
· 07-21 20:33
Acabou-se, o Miwei também não é muito confiável.
Ver originalResponder0
OvertimeSquid
· 07-21 20:29
4 levar uma surra também é merecido
Ver originalResponder0
DisillusiionOracle
· 07-21 20:13
Quanto mais obediente, mais perigoso. A vitória do humanismo.
Ver originalResponder0
CryptoMotivator
· 07-21 20:08
Ainda pensei que era muito seguro, mas é bastante duvidoso.
A pesquisa revela falhas de confiabilidade no modelo GPT, avaliando os riscos de segurança e privacidade sob múltiplas perspectivas.
Avaliação completa da confiabilidade do modelo GPT
Recentemente, um estudo realizado pela Universidade de Illinois em Urbana-Champaign, pela Universidade de Stanford, pela Universidade da Califórnia em Berkeley, pelo Centro de Segurança em Inteligência Artificial e pelo Laboratório de Pesquisa da Microsoft, avaliou de forma abrangente a confiabilidade do modelo de transformer pré-treinado generativo (GPT). A equipe de pesquisa desenvolveu uma plataforma de avaliação abrangente para examinar a confiabilidade de grandes modelos de linguagem (LLMs) sob múltiplas perspectivas.
A pesquisa revelou algumas vulnerabilidades relacionadas à confiabilidade que não haviam sido divulgadas anteriormente. Por exemplo, o modelo GPT tende a gerar saídas tóxicas e tendenciosas, além de poder vazar informações privadas contidas nos dados de treinamento e no histórico de conversas. Embora, em testes padrão, o GPT-4 seja geralmente mais confiável do que o GPT-3.5, ao lidar com prompts ou entradas de usuário maliciosamente projetados, o GPT-4 pode ser mais suscetível a ataques, possivelmente devido ao seu cumprimento mais rigoroso de instruções enganosas.
A equipe de pesquisa avaliou o modelo GPT de forma abrangente sob oito ângulos diferentes, incluindo robustez contra ataques adversariais, capacidade de seguir instruções, capacidade de recuperação do modelo, entre outros. A avaliação abrangeu vários cenários, tarefas, métricas e conjuntos de dados.
Durante o processo de avaliação, os pesquisadores descobriram alguns fenômenos interessantes. Por exemplo, o GPT-3.5 e o GPT-4 não são enganados por exemplos contrafactuais adicionados à demonstração, mas fornecer uma demonstração de combate à fraude pode levar a previsões erradas em relação a entradas contrafactuais. Em termos de toxicidade e preconceito, ambos os modelos apresentam pouca viés em relação à maioria dos temas estereotipados sob sugestões benignas, mas podem ser induzidos a concordar com conteúdos preconceituosos sob sugestões enganosas.
Em relação ao problema da violação de privacidade, a pesquisa descobriu que o modelo GPT pode vazar informações sensíveis dos dados de treinamento, como endereços de e-mail. Em certos casos, o uso de conhecimento suplementar pode melhorar significativamente a precisão da extração de informações. De um modo geral, o GPT-4 é mais robusto na proteção de informações de identificação pessoal em comparação com o GPT-3.5, mas ambos os modelos demonstram uma forte capacidade de proteção quando confrontados com certos tipos de informações de privacidade.
Este estudo oferece uma perspectiva abrangente para a avaliação da credibilidade dos modelos GPT, revelando riscos potenciais e áreas de melhoria. A equipe de pesquisa espera que este trabalho possa promover a continuidade da investigação na academia, trabalhando juntos para criar modelos de linguagem mais robustos e confiáveis.