Baru-baru ini, sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latih generatif (GPT). Tim peneliti mengembangkan platform evaluasi komprehensif untuk menguji keandalan model bahasa besar (LLMs) dari berbagai sudut.
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal daripada GPT-3.5, ketika menghadapi prompt sistem atau input pengguna yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, kemampuan mengikuti instruksi, dan kemampuan pemulihan model. Evaluasi mencakup berbagai skenario, tugas, metrik, dan dataset.
Dalam proses evaluasi, para peneliti menemukan beberapa fenomena menarik. Misalnya, GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model tidak menunjukkan banyak bias terhadap sebagian besar tema stereotip di bawah petunjuk yang baik, tetapi di bawah petunjuk yang menyesatkan, mereka mungkin tergoda untuk setuju dengan konten yang bias.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 lebih tangguh dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi beberapa jenis informasi privasi.
Penelitian ini memberikan perspektif komprehensif untuk evaluasi keandalan model GPT, mengungkapkan risiko potensial dan ruang untuk perbaikan. Tim peneliti berharap bahwa pekerjaan ini dapat mendorong komunitas akademis untuk terus melakukan penelitian lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat diandalkan.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
6 Suka
Hadiah
6
5
Bagikan
Komentar
0/400
ReverseFOMOguy
· 07-24 20:05
Toxic itu benar. Aturan dibuat untuk dilanggar.
Lihat AsliBalas0
BearMarketSurvivor
· 07-21 20:33
Selesai, Mi Wei juga tidak terlalu dapat diandalkan.
Lihat AsliBalas0
OvertimeSquid
· 07-21 20:29
4 Memang pantas dipukul
Lihat AsliBalas0
DisillusiionOracle
· 07-21 20:13
4 semakin patuh 4 semakin berbahaya ah, kemenangan penganut humanisme absolut.
Lihat AsliBalas0
CryptoMotivator
· 07-21 20:08
Masih mengira sangat aman, cukup tidak dapat diandalkan ya.
Penelitian mengungkapkan celah keandalan model GPT, penilaian risiko keamanan dan privasi dari berbagai sudut.
Penilaian Menyeluruh Terhadap Keandalan Model GPT
Baru-baru ini, sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latih generatif (GPT). Tim peneliti mengembangkan platform evaluasi komprehensif untuk menguji keandalan model bahasa besar (LLMs) dari berbagai sudut.
Penelitian telah menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak dipublikasikan. Misalnya, model GPT cenderung menghasilkan output yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih andal daripada GPT-3.5, ketika menghadapi prompt sistem atau input pengguna yang dirancang dengan jahat, GPT-4 justru lebih rentan terhadap serangan, mungkin karena ia lebih ketat mengikuti instruksi yang menyesatkan.
Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan adversarial, kemampuan mengikuti instruksi, dan kemampuan pemulihan model. Evaluasi mencakup berbagai skenario, tugas, metrik, dan dataset.
Dalam proses evaluasi, para peneliti menemukan beberapa fenomena menarik. Misalnya, GPT-3.5 dan GPT-4 tidak akan tersesat oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, tetapi memberikan demonstrasi anti-penipuan dapat menyebabkan mereka membuat prediksi yang salah terhadap input kontra-faktual. Dalam hal toksisitas dan bias, kedua model tidak menunjukkan banyak bias terhadap sebagian besar tema stereotip di bawah petunjuk yang baik, tetapi di bawah petunjuk yang menyesatkan, mereka mungkin tergoda untuk setuju dengan konten yang bias.
Mengenai masalah kebocoran privasi, penelitian menemukan bahwa model GPT dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Secara keseluruhan, GPT-4 lebih tangguh dalam melindungi informasi identitas pribadi dibandingkan dengan GPT-3.5, tetapi kedua model menunjukkan kemampuan perlindungan yang kuat ketika menghadapi beberapa jenis informasi privasi.
Penelitian ini memberikan perspektif komprehensif untuk evaluasi keandalan model GPT, mengungkapkan risiko potensial dan ruang untuk perbaikan. Tim peneliti berharap bahwa pekerjaan ini dapat mendorong komunitas akademis untuk terus melakukan penelitian lebih dalam berdasarkan ini, bekerja sama untuk menciptakan model bahasa yang lebih kuat dan lebih dapat diandalkan.