Evaluasi Komprehensif Keandalan Model GPT: Mengungkap Kerentanan dan Risiko Keamanan Potensial

robot
Pembuatan abstrak sedang berlangsung

Evaluasi Menyeluruh terhadap Keandalan Model GPT

Baru-baru ini, sebuah tim penelitian yang terdiri dari Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, Pusat Keamanan Kecerdasan Buatan, dan Microsoft Research merilis platform evaluasi kredibilitas komprehensif untuk model bahasa besar (LLMs). Temuan penelitian ini telah dijelaskan secara rinci dalam makalah terbaru "DecodingTrust: Evaluasi Kredibilitas Model GPT Secara Komprehensif."

Tim penelitian menemukan beberapa kerentanan terkait keandalan yang sebelumnya tidak diungkapkan. Misalnya, model GPT rentan untuk disesatkan sehingga menghasilkan output yang beracun dan berpihak, serta dapat membocorkan informasi pribadi dalam data pelatihan dan riwayat percakapan. Perlu dicatat bahwa meskipun dalam pengujian standar, GPT-4 biasanya lebih dapat dipercaya dibandingkan GPT-3.5, ketika dihadapkan dengan sistem atau petunjuk yang dirancang jahat, GPT-4 justru lebih mudah diserang. Ini mungkin karena GPT-4 lebih akurat mengikuti instruksi yang menyesatkan.

Untuk mengevaluasi secara menyeluruh keandalan model GPT, tim penelitian melakukan analisis dari delapan sudut pandang yang berbeda, termasuk ketahanan terhadap serangan, toksisitas dan bias, serta kebocoran privasi. Proses evaluasi mencakup berbagai skenario, tugas, metrik, dan dataset.

Dalam hal ketahanan terhadap serangan, para peneliti merancang tiga skenario evaluasi: uji AdvGLUE standar, uji AdvGLUE dengan petunjuk tugas yang berbeda, dan uji AdvGLUE++ yang lebih menantang. Uji ini bertujuan untuk mengevaluasi kerentanan model GPT terhadap serangan teks yang ada dan membandingkannya dengan model-model canggih lainnya.

Hasil penelitian menunjukkan bahwa model GPT menunjukkan beberapa karakteristik menarik dalam demonstrasi adversarial. GPT-3.5 dan GPT-4 tidak akan terbujuk oleh contoh kontra-faktual yang ditambahkan dalam demonstrasi, dan bahkan dapat mengambil manfaat darinya. Namun, ketika diberikan demonstrasi anti-penipuan, kedua model dapat membuat prediksi yang salah terhadap input kontra-faktual, terutama ketika demonstrasi kontra-faktual dekat dengan input pengguna. Dalam hal ini, GPT-4 tampaknya lebih rentan dibandingkan dengan GPT-3.5.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa GPT-3.5 dan GPT-4 tidak menunjukkan bias yang signifikan terhadap sebagian besar tema stereotip di bawah petunjuk sistem yang benign dan tanpa tujuan. Namun, ketika dihadapkan pada petunjuk sistem yang menyesatkan, kedua model dapat "tertipu" untuk setuju dengan konten yang bias. Perlu dicatat bahwa GPT-4 lebih mudah dipengaruhi oleh petunjuk sistem menyesatkan yang ditargetkan dibandingkan dengan GPT-3.5.

Mengenai masalah kebocoran privasi, penelitian menunjukkan bahwa model GPT mungkin dapat membocorkan informasi sensitif dalam data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model GPT juga mungkin membocorkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 lebih baik dalam melindungi informasi identitas pribadi (PII) dibandingkan dengan GPT-3.5, tetapi kedua model tersebut mungkin mengalami masalah ketika menghadapi demonstrasi kebocoran privasi.

Tim penelitian berharap dengan mempublikasikan temuan ini, dapat mendorong lebih banyak peneliti untuk terlibat dalam pekerjaan ini, bekerja sama untuk menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka menyediakan kode acuan yang mudah digunakan dan dapat diperluas, sehingga menjalankan evaluasi lengkap pada model baru menjadi sederhana dan efisien.

Penelitian ini tidak hanya mengungkapkan keunggulan dan potensi ancaman dari model GPT saat ini dalam hal kredibilitas, tetapi juga menyediakan referensi dan arah penting untuk penelitian keamanan kecerdasan buatan di masa depan. Dengan penerapan luas model bahasa besar di berbagai bidang, memastikan kredibilitas dan keamanan mereka akan menjadi semakin penting.

GPT3.8%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 10
  • Posting ulang
  • Bagikan
Komentar
0/400
LiquidatedTwicevip
· 08-09 05:40
Bom sederhana jelas
Lihat AsliBalas0
AirdropChaservip
· 08-09 05:04
Ya, yang mengerti pasti mengerti.
Lihat AsliBalas0
SellTheBouncevip
· 08-07 21:22
Sudah dibilang AI tidak bisa dipercaya, dasar pasar masih jauh.
Lihat AsliBalas0
GasFeeWhisperervip
· 08-06 07:49
Ada pengkhianat dalam pekerjaan ini.
Lihat AsliBalas0
SmartMoneyWalletvip
· 08-06 07:49
Sudah dibilang bahwa kebocoran data selalu ada
Lihat AsliBalas0
MetamaskMechanicvip
· 08-06 07:45
Tsk tsk, tidak mengejutkan.
Lihat AsliBalas0
SandwichTradervip
· 08-06 07:43
Pada saat-saat penting, masih bisa menciptakan hal baru ya.
Lihat AsliBalas0
RektCoastervip
· 08-06 07:41
Slaid lutut gpt juga mengalami pukulan besi
Lihat AsliBalas0
ChainWanderingPoetvip
· 08-06 07:37
Saya sudah tahu itu tidak dapat diandalkan.
Lihat AsliBalas0
FlashLoanKingvip
· 08-06 07:28
Keamanan masih tipis
Lihat AsliBalas0
Lihat Lebih Banyak
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)