Đánh giá toàn diện độ tin cậy của mô hình GPT: Khám phá các lỗ hổng tiềm ẩn và nguy cơ an ninh

robot
Đang tạo bản tóm tắt

Đánh giá toàn diện độ tin cậy của mô hình GPT

Gần đây, một nhóm nghiên cứu gồm Đại học Illinois tại Urbana-Champaign, Đại học Stanford, Đại học California ở Berkeley, Trung tâm An ninh Trí tuệ Nhân tạo và Viện Nghiên cứu Microsoft đã công bố một nền tảng đánh giá độ tin cậy toàn diện cho các mô hình ngôn ngữ lớn (LLMs). Kết quả nghiên cứu này đã được giới thiệu chi tiết trong bài báo mới nhất "DecodingTrust: Đánh giá toàn diện độ tin cậy của các mô hình GPT."

Nhóm nghiên cứu đã phát hiện ra một số lỗ hổng liên quan đến độ tin cậy mà trước đây chưa được công bố. Ví dụ, mô hình GPT dễ bị dẫn dắt để tạo ra các đầu ra độc hại và có thiên kiến, và có thể làm lộ thông tin riêng tư trong dữ liệu huấn luyện và lịch sử trò chuyện. Đáng chú ý là, mặc dù trong các bài kiểm tra chuẩn, GPT-4 thường đáng tin cậy hơn GPT-3.5, nhưng khi phải đối mặt với các hệ thống hoặc gợi ý của người dùng thiết kế ác ý, GPT-4 lại dễ bị tấn công hơn. Điều này có thể là do GPT-4 tuân theo các hướng dẫn gây hiểu lầm một cách chính xác hơn.

Để đánh giá toàn diện độ tin cậy của mô hình GPT, nhóm nghiên cứu đã phân tích từ tám khía cạnh khác nhau, bao gồm độ bền vững đối kháng, tính độc hại và thiên lệch, rò rỉ thông tin cá nhân, v.v. Quá trình đánh giá bao gồm nhiều tình huống, nhiệm vụ, chỉ số và tập dữ liệu khác nhau.

Trong khía cạnh khả năng chống lại tấn công, các nhà nghiên cứu đã thiết kế ba kịch bản đánh giá: bài kiểm tra AdvGLUE tiêu chuẩn, bài kiểm tra AdvGLUE với các hướng dẫn nhiệm vụ khác nhau, và bài kiểm tra AdvGLUE++ khó khăn hơn. Những bài kiểm tra này nhằm đánh giá độ dễ bị tổn thương của mô hình GPT đối với các cuộc tấn công văn bản hiện có và so sánh với các mô hình tiên tiến khác.

Các nghiên cứu cho thấy rằng mô hình GPT có một số đặc điểm thú vị trong các bản trình diễn đối kháng. GPT-3.5 và GPT-4 không bị đánh lừa bởi các ví dụ phản thực được thêm vào trong bản trình diễn, và thậm chí còn có thể được hưởng lợi từ chúng. Tuy nhiên, khi cung cấp các bản trình diễn chống gian lận, cả hai mô hình đều có thể đưa ra dự đoán sai về các đầu vào phản thực, đặc biệt là khi các bản trình diễn phản thực gần với đầu vào của người dùng. Trong khía cạnh này, GPT-4 dường như bị ảnh hưởng nhiều hơn so với GPT-3.5.

Về tính độc hại và sự thiên kiến, nghiên cứu cho thấy rằng GPT-3.5 và GPT-4 không có sự thiên lệch đáng kể đối với hầu hết các chủ đề khuôn mẫu dưới các gợi ý hệ thống lành mạnh và không có mục tiêu. Tuy nhiên, khi đối mặt với các gợi ý hệ thống gây hiểu lầm, cả hai mô hình đều có thể bị "dụ dỗ" đồng ý với nội dung có thiên kiến. Đáng chú ý là, GPT-4 dễ bị ảnh hưởng hơn bởi các gợi ý hệ thống gây hiểu lầm có mục tiêu so với GPT-3.5.

Về vấn đề rò rỉ thông tin cá nhân, nghiên cứu cho thấy mô hình GPT có thể rò rỉ thông tin nhạy cảm trong dữ liệu huấn luyện, chẳng hạn như địa chỉ email. Trong một số trường hợp, việc sử dụng kiến thức bổ sung có thể cải thiện đáng kể độ chính xác của việc trích xuất thông tin. Hơn nữa, mô hình GPT cũng có thể rò rỉ thông tin cá nhân được tiêm vào lịch sử hội thoại. Nhìn chung, GPT-4 có hiệu suất tốt hơn GPT-3.5 trong việc bảo vệ thông tin nhận dạng cá nhân (PII), nhưng cả hai mô hình đều có thể gặp vấn đề khi đối mặt với các màn trình diễn rò rỉ thông tin cá nhân.

Nhóm nghiên cứu hy vọng rằng bằng cách công bố những phát hiện này, sẽ khuyến khích nhiều nhà nghiên cứu hơn tham gia vào công việc này, cùng nỗ lực tạo ra các mô hình mạnh mẽ và đáng tin cậy hơn. Để thúc đẩy sự hợp tác, họ đã cung cấp mã chuẩn dễ sử dụng và có thể mở rộng, giúp cho việc chạy đánh giá toàn diện trên các mô hình mới trở nên đơn giản và hiệu quả.

Nghiên cứu này không chỉ tiết lộ những lợi thế và mối đe dọa tiềm tàng của các mô hình GPT hiện tại về độ tin cậy, mà còn cung cấp những tham khảo và hướng đi quan trọng cho nghiên cứu an toàn trí tuệ nhân tạo trong tương lai. Khi các mô hình ngôn ngữ lớn được áp dụng rộng rãi trong nhiều lĩnh vực, việc đảm bảo độ tin cậy và an toàn của chúng sẽ trở nên ngày càng quan trọng.

GPT3.34%
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 10
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
LiquidatedTwicevip
· 08-09 05:40
Bom đơn giản rõ ràng
Xem bản gốcTrả lời0
AirdropChaservip
· 08-09 05:04
Lỗ hổng mà, những người hiểu đều hiểu ha.
Xem bản gốcTrả lời0
SellTheBouncevip
· 08-07 21:22
Đã nói rồi, ai mà tin được, đáy thị trường còn xa lắm.
Xem bản gốcTrả lời0
GasFeeWhisperervip
· 08-06 07:49
Công việc này có nội gián.
Xem bản gốcTrả lời0
SmartMoneyWalletvip
· 08-06 07:49
Đã nói rồi, sự rò rỉ dữ liệu luôn tồn tại.
Xem bản gốcTrả lời0
MetamaskMechanicvip
· 08-06 07:45
Tsk tsk, không bất ngờ.
Xem bản gốcTrả lời0
SandwichTradervip
· 08-06 07:43
Vào lúc quan trọng vẫn tạo ra những điều mới mẻ.
Xem bản gốcTrả lời0
RektCoastervip
· 08-06 07:41
Trượt quỳ gpt cũng bị đấm thép
Xem bản gốcTrả lời0
ChainWanderingPoetvip
· 08-06 07:37
Chỉ biết nó không đáng tin cậy
Xem bản gốcTrả lời0
FlashLoanKingvip
· 08-06 07:28
An toàn vẫn là mỏng manh
Xem bản gốcTrả lời0
Xem thêm
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)