Mengalahkan Llama 2 dan bersaing dengan GPT-3.5, model baru Stability AI menduduki puncak peringkat model besar open source

2023-07-24 02:41:13

Sumber Asli: Jantung Mesin

Sumber gambar: Dihasilkan oleh AI‌ Tak Terbatas

Dalam sekejap mata, model besar open source telah meningkat lagi. Apakah Google dan OpenAI benar-benar tidak memiliki parit?

"Saya baru saja istirahat makan siang 30 menit, dan bidang kami telah berubah lagi?" Setelah melihat peringkat model besar open source terbaru, seorang pengusaha di bidang AI bertanya pada jiwanya.

Tautan papan peringkat:

Para "pemula" di kotak merah di atas adalah dua model besar dari lab Stability AI dan CarperAI: FreeWilly 1 dan FreeWilly 2. Baru saja, mereka melampaui Llama-2-70b-hf yang dirilis oleh Meta tiga hari lalu, dan berhasil mencapai puncak papan peringkat Open LLM HuggingFace.

Yang lebih mengejutkan adalah FreeWilly 2 juga mengalahkan ChatGPT (GPT-3.5) di banyak tolok ukur, menjadi model sumber terbuka pertama yang benar-benar dapat bersaing dengan GPT-3.5, sesuatu yang tidak dilakukan Llama 2.

FreeWilly 1 dibangun di atas model dasar LLaMA 65B asli dan fine-tuning (SFT) yang diawasi dengan cermat menggunakan kumpulan data sintetik baru dalam format Alpaca standar. FreeWilly2 didasarkan pada model dasar LLaMA 2 70B terbaru.

Dari blog yang diterbitkan oleh Stability AI, kita bisa melihat beberapa detail dari dua model baru ini:

Sumber data

Metode pelatihan model FreeWilly secara langsung terinspirasi oleh metode yang dipelopori oleh Microsoft dalam makalah mereka "Orca: Progressive Learning from Complex Explanation Traces of GPT-4". Meskipun proses pembuatan data FreeWilly serupa, ada perbedaan dalam sumber datanya.

Kumpulan data FreeWilly berisi 600.000 titik data (sekitar 10% dari ukuran kumpulan data yang digunakan dalam makalah Orca asli), dan dihasilkan oleh model bahasa yang menginspirasi dari kumpulan data instruksi berkualitas tinggi berikut yang dibuat oleh Enrico Shippole:

COT Submix Asli
NIV2 Submix Asli
FLAN 2021 Submix Asli
T0 Submix Asli

Dengan menggunakan pendekatan ini, para peneliti menghasilkan 500.000 contoh menggunakan model LLM yang lebih sederhana dan 100.000 contoh tambahan menggunakan model LLM yang lebih kompleks. Untuk memastikan perbandingan yang adil, mereka dengan hati-hati menyaring kumpulan data ini dan menghapus contoh yang berasal dari tolok ukur evaluasi. Meskipun jumlah sampel pelatihan hanya 1/10 dari kertas Orca asli (yang sangat mengurangi biaya dan jejak karbon pelatihan model dibandingkan dengan kertas asli), model FreeWilly yang dihasilkan bekerja dengan baik di berbagai tolok ukur, memvalidasi keefektifan pendekatan mereka dengan kumpulan data sintetik.

Data kinerja

Untuk evaluasi internal model ini, para peneliti menggunakan tolok ukur lm-harness EleutherAI, yang menggabungkan AGI.

Di antaranya, tolok ukur lm-harness dibuat oleh laboratorium penelitian kecerdasan buatan nirlaba EleutherAI, yang berada di balik papan peringkat HuggingFace Open LLM yang disebutkan di atas.

AGI dibuat oleh Microsoft untuk mengevaluasi kinerja model dasar pada tes standar "berpusat pada manusia", seperti kompetisi matematika dan ujian bar.

Kedua model FreeWilly bekerja sangat baik di banyak bidang, termasuk penalaran kompleks, memahami seluk-beluk bahasa, dan menjawab pertanyaan kompleks yang melibatkan domain khusus seperti pertanyaan hukum dan matematika.

Hasil evaluasi kedua model pada lm--harness benchmark adalah sebagai berikut (hasil uji FreeWilly ini dievaluasi oleh peneliti Stabilitas AI):

Performa keduanya pada benchmark AGI adalah sebagai berikut (semua 0-shot):

Selain itu, mereka menguji dua model pada benchmark GPT4ALL (semua 0-shot):

Secara keseluruhan, kinerja kedua model ini sangat bagus, semakin mempersempit kesenjangan dengan model AI teratas seperti ChatGPT. Siswa yang ingin mendapatkan model dapat mengklik tautan di bawah ini.

GratisWilly 1：

GratisWilly 2：

Dilihat dari reaksi semua pihak, kemunculan model FreeWilly sedikit mengejutkan semua orang, karena datang terlalu cepat, toh Llama 2 baru diluncurkan selama 3 hari, dan posisi peringkatnya tidak panas. Seorang peneliti mengatakan bahwa dia baru saja menjalani operasi mata dan tidak menonton berita selama seminggu, tetapi merasa seperti koma selama setahun. Jadi, ini adalah periode "tidak bisa berkedip".

Namun, penting untuk dicatat bahwa meskipun kedua model adalah akses terbuka, tidak seperti Llama 2, keduanya dirilis di bawah lisensi nonkomersial hanya untuk tujuan penelitian.

Namun, pendekatan seperti itu menimbulkan keraguan dari netizen.

Sebagai tanggapan, peneliti Stabilitas AI menjawab bahwa situasi ini (hanya untuk tujuan penelitian) hanya bersifat sementara, dan di masa mendatang, FreeWilly diharapkan mengizinkan penggunaan komersial seperti Llama 2.

Selain itu, beberapa orang mempertanyakan tolok ukur yang diadopsi oleh tes tersebut:

Ini juga merupakan masalah yang lebih sulit saat ini. Sebelumnya kejadian model Falcon menghancurkan Llama di leaderboard HuggingFace menjadi kontroversi, kemudian kejadian tersebut dibalik total, ternyata Llama tidak dihancurkan oleh Falcon, dan HuggingFace juga menulis ulang kode leaderboard untuk ini. Saat ini, dengan munculnya model-model besar, cara mengevaluasi model-model ini secara efektif masih menjadi masalah yang layak untuk didiskusikan. Oleh karena itu, kami perlu mempertahankan sikap yang lebih hati-hati terhadap model peringkat teratas ini dan menunggu hasil evaluasi lebih lanjut dirilis.

Tautan Referensi:

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

0/400

Tidak ada komentar

Topik
#Gate Releases August Reserves Report
12k Popularitas
#BTC Hits New ATH
101k Popularitas
#Show My Alpha Points
129k Popularitas
#ETH Countdown To A New High
6k Popularitas
#Circle Launches ARC
4k Popularitas

Sematkan

peta situs