Penelitian mengungkapkan celah keandalan model GPT, penilaian risiko keamanan dan privasi dari berbagai sudut.

Penilaian Menyeluruh Terhadap Keandalan Model GPT

Baru-baru ini, sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latih generatif (GPT). Tim peneliti mengembangkan platform evaluasi komprehensif untuk menguji keandalan model bahasa besar (LLMs) dari berbagai sudut.

Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal daripada GPT-3.5, ketika menghadapi prompt sistem atau input pengguna yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, kemampuan mengikuti instruksi, dan kemampuan pemulihan model. Evaluasi mencakup berbagai skenario, tugas, metrik, dan dataset.

Dalam proses evaluasi, para peneliti menemukan beberapa fenomena menarik. Misalnya, GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model tidak menunjukkan banyak bias terhadap sebagian besar tema stereotip di bawah petunjuk yang baik, tetapi di bawah petunjuk yang menyesatkan, mereka mungkin tergoda untuk setuju dengan konten yang bias.

Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 lebih tangguh dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi beberapa jenis informasi privasi.

Penelitian ini memberikan perspektif komprehensif untuk evaluasi keandalan model GPT, mengungkapkan risiko potensial dan ruang untuk perbaikan. Tim peneliti berharap bahwa pekerjaan ini dapat mendorong komunitas akademis untuk terus melakukan penelitian lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat diandalkan.

GPT0.97%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 5
  • Bagikan
Komentar
0/400
ReverseFOMOguyvip
· 07-24 20:05
Toxic itu benar. Aturan dibuat untuk dilanggar.
Lihat AsliBalas0
BearMarketSurvivorvip
· 07-21 20:33
Selesai, Mi Wei juga tidak terlalu dapat diandalkan.
Lihat AsliBalas0
OvertimeSquidvip
· 07-21 20:29
4 Memang pantas dipukul
Lihat AsliBalas0
DisillusiionOraclevip
· 07-21 20:13
4 semakin patuh 4 semakin berbahaya ah, kemenangan penganut humanisme absolut.
Lihat AsliBalas0
CryptoMotivatorvip
· 07-21 20:08
Masih mengira sangat aman, cukup tidak dapat diandalkan ya.
Lihat AsliBalas0
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)