Nghiên cứu tiết lộ lỗ hổng độ tin cậy của mô hình GPT Đánh giá an ninh và rủi ro quyền riêng tư từ nhiều góc độ

Đánh giá toàn diện độ tin cậy của mô hình GPT

Gần đây, một nghiên cứu được thực hiện bởi Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California tại Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã tiến hành đánh giá toàn diện về độ tin cậy của mô hình transformer được huấn luyện trước sinh (GPT). Nhóm nghiên cứu đã phát triển một nền tảng đánh giá tổng hợp để kiểm tra độ tin cậy của các mô hình ngôn ngữ lớn (LLMs) từ nhiều góc độ.

Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa được công bố trước đây. Ví dụ, mô hình GPT có xu hướng tạo ra đầu ra độc hại và có thiên kiến, và cũng có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử trò chuyện. Mặc dù trong các bài kiểm tra tiêu chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các hệ thống nhắc nhở hoặc đầu vào người dùng được thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn, có thể là do nó tuân theo các hướng dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nhóm nghiên cứu đã đánh giá toàn diện mô hình GPT từ tám góc độ khác nhau, bao gồm khả năng chống lại các cuộc tấn công đối kháng, khả năng tuân thủ hướng dẫn, khả năng phục hồi của mô hình, v.v. Đánh giá bao gồm nhiều tình huống, nhiệm vụ, chỉ số và tập dữ liệu khác nhau.

Trong quá trình đánh giá, các nhà nghiên cứu đã phát hiện ra một số hiện tượng thú vị. Ví dụ, GPT-3.5 và GPT-4 không bị đánh lừa bởi các ví dụ phản thực được thêm vào trong buổi trình diễn, nhưng việc cung cấp buổi trình diễn chống gian lận có thể dẫn đến việc chúng đưa ra dự đoán sai về đầu vào phản thực. Về mặt độc hại và thiên lệch, cả hai mô hình đều không có sự thiên lệch lớn đối với hầu hết các chủ đề định kiến dưới sự gợi ý thiện chí, nhưng có thể bị dẫn dụ đồng ý với nội dung thiên lệch dưới sự gợi ý gây hiểu lầm.

Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu phát hiện rằng mô hình GPT có thể tiết lộ thông tin nhạy cảm trong dữ liệu đào tạo, như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Tổng thể, GPT-4 mạnh mẽ hơn trong việc bảo vệ thông tin cá nhân so với GPT-3.5, nhưng cả hai mô hình đều thể hiện khả năng bảo vệ mạnh mẽ khi đối mặt với một số loại thông tin riêng tư.

Nghiên cứu này cung cấp một cái nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, tiết lộ những rủi ro tiềm ẩn và không gian cải tiến. Nhóm nghiên cứu hy vọng rằng công việc này có thể thúc đẩy cộng đồng học thuật tiếp tục nghiên cứu sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra những mô hình ngôn ngữ mạnh mẽ và đáng tin cậy hơn.

GPT0.97%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 5
  • Chia sẻ
Bình luận
0/400
ReverseFOMOguyvip
· 07-24 20:05
Có độc thì đúng rồi, quy tắc là để bị phá vỡ.
Xem bản gốcTrả lời0
BearMarketSurvivorvip
· 07-21 20:33
Hỏng bét rồi, Mi Wei cũng không đáng tin lắm.
Xem bản gốcTrả lời0
OvertimeSquidvip
· 07-21 20:29
4 bị đánh cũng đáng
Xem bản gốcTrả lời0
DisillusiionOraclevip
· 07-21 20:13
4 Càng nghe lời thì càng nguy hiểm ạ, chiến thắng của những người theo chủ nghĩa nhân tính tối thượng.
Xem bản gốcTrả lời0
CryptoMotivatorvip
· 07-21 20:08
Còn tưởng là rất an toàn, thật không đáng tin cậy.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)