Đánh giá toàn diện độ tin cậy của mô hình GPT: tiết lộ rủi ro và thách thức tiềm ẩn

robot
Đang tạo bản tóm tắt

Đánh giá độ tin cậy của mô hình GPT: Phân tích toàn diện và rủi ro tiềm ẩn

Đại học Illinois tại Urbana-Champaign, kết hợp với Đại học Stanford, Đại học California tại Berkeley và các tổ chức khác, đã ra mắt một nền tảng đánh giá độ tin cậy tổng hợp cho các mô hình ngôn ngữ lớn (LLMs). Các kết quả nghiên cứu liên quan được công bố trong bài báo "DecodingTrust: Đánh giá toàn diện độ tin cậy của mô hình GPT."

Nghiên cứu đã phát hiện một số lỗ hổng liên quan đến độ tin cậy chưa từng được phát hiện trước đây. Chẳng hạn, mô hình GPT dễ bị dẫn đến việc sản xuất các đầu ra độc hại và thiên kiến, và cũng có thể rò rỉ thông tin riêng tư từ dữ liệu huấn luyện và lịch sử cuộc trò chuyện. Mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi đối mặt với các hệ thống hoặc gợi ý người dùng được thiết kế độc hại, GPT-4 lại dễ bị tấn công hơn, có thể là do GPT-4 thực thi các chỉ dẫn gây hiểu lầm một cách nghiêm ngặt hơn.

Nhóm nghiên cứu đã thực hiện đánh giá toàn diện mô hình GPT từ 8 khía cạnh độ tin cậy, bao gồm độ bền với các cuộc tấn công phản kháng, độc tính và thiên kiến, rò rỉ thông tin riêng tư, v.v. Ví dụ, để đánh giá độ bền của mô hình trước các cuộc tấn công văn bản, nhóm đã thiết kế ba kịch bản đánh giá: bài kiểm tra chuẩn AdvGLUE, bài kiểm tra AdvGLUE dưới các hướng dẫn nhiệm vụ khác nhau, và bài kiểm tra AdvGLUE++ mới được tạo ra với độ thách thức cao.

Trong nghiên cứu về tính ổn định của mô hình đối với các trình diễn đối kháng, phát hiện rằng GPT-3.5 và GPT-4 không bị các ví dụ phản thực gây nhầm lẫn, thậm chí có thể hưởng lợi từ chúng. Tuy nhiên, các trình diễn chống gian lận có thể gây nhầm lẫn cho mô hình đưa ra dự đoán sai về các đầu vào phản thực, đặc biệt là khi các trình diễn phản thực gần với đầu vào của người dùng, GPT-4 dễ bị ảnh hưởng hơn.

Về độc tính và thành kiến, dưới các gợi ý hệ thống tích cực và không có mục tiêu, sự thiên lệch của hai mô hình GPT đối với hầu hết các chủ đề định kiến không lớn. Nhưng dưới các gợi ý hệ thống gây hiểu lầm, cả hai mô hình đều có thể bị dẫn dắt đồng ý với nội dung có thành kiến, trong đó GPT-4 dễ bị ảnh hưởng hơn. Sự thiên lệch của mô hình cũng phụ thuộc vào nhóm dân số và chủ đề định kiến được đề cập trong gợi ý của người dùng.

Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu đào tạo, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Hơn nữa, mô hình cũng có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử đối thoại. Nhìn chung, GPT-4 mạnh mẽ hơn trong việc bảo vệ thông tin nhận dạng cá nhân (PII) so với GPT-3.5, nhưng vẫn có khả năng rò rỉ tất cả các loại PII trong các điều kiện nhất định.

Nghiên cứu này cung cấp một cái nhìn toàn diện về việc đánh giá độ tin cậy của mô hình GPT, làm nổi bật các rủi ro và thách thức tiềm ẩn. Nhóm nghiên cứu hy vọng rằng công việc này sẽ thúc đẩy cộng đồng học thuật và ngành công nghiệp tiếp tục nghiên cứu sâu hơn trên cơ sở này, cùng nhau nỗ lực tạo ra các mô hình ngôn ngữ mạnh mẽ và đáng tin cậy hơn.

GPT6.85%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Chia sẻ
Bình luận
0/400
Blockblindvip
· 6giờ trước
Đến để chơi, lại bị gpt4 lừa rồi.
Xem bản gốcTrả lời0
GasSavingMastervip
· 6giờ trước
Ôi, báo cáo kiểm toán này khiến tôi run rẩy.
Xem bản gốcTrả lời0
TokenBeginner'sGuidevip
· 6giờ trước
Nhắc nhở: Cập nhật GPT thực sự cũng đồng nghĩa với việc rủi ro đang gia tăng, dữ liệu cho thấy 85% rủi ro rò rỉ đến từ việc thực hiện nghiêm ngặt có vẻ thông minh... không thể không nói rằng nghiên cứu này đã gióng lên hồi chuông cảnh báo cho chúng ta.
Xem bản gốcTrả lời0
BearMarketNoodlervip
· 6giờ trước
Mì xào lại giảm giá, khuyên mọi người học một chút mẹo lừa đảo của GPT.
Xem bản gốcTrả lời0
WalletsWatchervip
· 6giờ trước
Mô hình lớn cũng có điểm mù thật đáng kinh ngạc
Xem bản gốcTrả lời0
DegenWhisperervip
· 6giờ trước
Đầu ra này thật vô nhân đạo, toàn là lỗi.
Xem bản gốcTrả lời0
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)