Llama 2'yi yenen ve GPT-3.5'e karşı rekabet eden Stability AI'nin yeni modeli, açık kaynak büyük model sıralamasında zirveye yerleşti

2023-07-24 02:41:13

Orijinal Kaynak: Makinenin Kalbi

Görsel kaynağı: Unbounded AI‌ tarafından oluşturuldu

Göz açıp kapayıncaya kadar, açık kaynaklı büyük model yeniden gelişti. Google ve OpenAI'nin gerçekten hendekleri yok mu?

"Az önce 30 dakikalık bir öğle yemeği molası verdim ve alanımız yine değişti?" En son açık kaynak büyük model sıralamalarını gördükten sonra, AI alanında bir girişimci ruhuna sordu.

Skor tablosu bağlantısı:

Yukarıdaki kırmızı kutudaki "çaylaklar", Stability AI ve CarperAI laboratuvarından iki büyük modeldir: FreeWilly 1 ve FreeWilly 2. Az önce, Meta tarafından üç gün önce yayınlanan Llama-2-70b-hf'yi geçtiler ve HuggingFace'in Open LLM liderlik tablosunda başarıyla zirveye ulaştılar.

Daha da çarpıcı olanı, FreeWilly 2'nin birçok kıyaslamada ChatGPT'yi (GPT-3.5) geçerek GPT-3.5 ile gerçekten rekabet edebilen ilk açık kaynak modeli haline gelmesidir, ki bu Llama 2'nin yapmadığı bir şeydi.

FreeWilly 1, orijinal LLaMA 65B temel modeli ve standart Alpaka formatında yeni sentetik veri kümeleri kullanılarak dikkatle denetlenen ince ayar (SFT) üzerine kurulmuştur. FreeWilly2, en son LLaMA 2 70B temel modelini temel alır.

Stability AI tarafından yayınlanan blogdan, bu iki yeni modelin bazı detaylarını görebiliriz:

Veri kaynakları

FreeWilly modelinin eğitim yöntemi, doğrudan Microsoft'un "Orca: Progressive Learning from Complex Explanation Traces of GPT-4" makalesinde öncülük ettiği yöntemden esinlenmiştir. FreeWilly'nin veri oluşturma süreci benzer olsa da, verilerin kaynağında farklılıklar vardır.

FreeWilly'nin veri seti 600.000 veri noktası içerir (orijinal Orca makalesinde kullanılan veri seti boyutunun yaklaşık %10'u) ve Enrico Shippole tarafından oluşturulan aşağıdaki yüksek kaliteli talimat veri setinden ilham alan dil modelleriyle oluşturulmuştur:

COT Alt Karışımı Orijinal
NIV2 Alt Karışımı Orijinal
FLAN 2021 Alt Karışım Orijinali
T0 Alt Karışım Orijinal

Araştırmacılar bu yaklaşımı kullanarak daha basit bir LLM modeli kullanarak 500.000 örnek ve daha karmaşık bir LLM modeli kullanarak ek 100.000 örnek oluşturdu. Adil bir karşılaştırma sağlamak için, bu veri kümelerini dikkatlice taradılar ve değerlendirme ölçütünden türetilen örnekleri kaldırdılar. Eğitim örneklerinin sayısı orijinal Orca makalesinin yalnızca 1/10'u kadar olsa da (orijinal makaleye kıyasla modeli eğitmenin maliyetini ve karbon ayak izini büyük ölçüde azaltır), sonuçta ortaya çıkan FreeWilly modeli, sentetik veri kümeleriyle yaklaşımlarının etkinliğini doğrulayarak çeşitli kıyaslamalarda iyi performans gösterir.

Performans verisi

Bu modellerin iç değerlendirmesi için araştırmacılar, EleutherAI'nin AGI'yi içeren lm-harness karşılaştırmasını kullandılar.

Bunların arasında, lm-harness kıyaslaması, daha önce bahsedilen HuggingFace Open LLM liderlik tablosunun arkasındaki EleutherAI kar amacı gütmeyen yapay zeka araştırma laboratuvarı tarafından oluşturulmuştur.

AGI, matematik yarışmaları ve baro sınavları gibi "insan merkezli" standartlaştırılmış testlerde temel alınan modelin performansını değerlendirmek için Microsoft tarafından oluşturuldu.

Her iki FreeWilly modeli de, karmaşık akıl yürütme, dilin inceliklerini anlama ve yasal ve matematiksel sorular gibi özel alanları içeren karmaşık soruları yanıtlama dahil olmak üzere pek çok cephede çok iyi performans gösterir.

İki modelin lm-harness kıyaslamasındaki değerlendirme sonuçları aşağıdaki gibidir (bu FreeWilly test sonuçları Stability AI araştırmacıları tarafından değerlendirilmiştir):

İkisinin AGI kıyaslamasındaki performansı aşağıdaki gibidir (hepsi 0 atış):

Ek olarak, GPT4ALL testinde iki modeli test ettiler (hepsi 0 atış):

Genel olarak, bu iki modelin performansı çok iyi ve ChatGPT gibi en iyi AI modelleriyle aradaki farkı daha da daraltıyor. Modeli almak isteyen öğrenciler aşağıdaki linke tıklayabilirler.

1：

Ücretsiz Willy 2：

Tüm tarafların tepkilerine bakılırsa, FreeWilly modelinin ortaya çıkışı herkeste biraz şok yarattı çünkü çok hızlı geldiler.Sonuçta Llama 2 sadece 3 gün önce piyasaya sürüldü ve sıralama konumu sıcak değil. Bir araştırmacı, yakın zamanda gözünden ameliyat olduğunu ve bir hafta boyunca haberleri izlemediğini, ancak bir yıldır komadaymış gibi hissettiğini söyledi. Yani, bu bir "göz kırpma" dönemidir.

Ancak, her iki modelin de açık erişim olmasına rağmen, Llama 2'den farklı olarak, yalnızca araştırma amacıyla ticari olmayan bir lisans altında yayınlandıklarına dikkat etmek önemlidir.

Bununla birlikte, böyle bir yaklaşım netizenlerden şüphe uyandırdı.

Yanıt olarak, Stability AI araştırmacıları, bu durumun (yalnızca araştırma amaçlı) yalnızca geçici olduğunu ve gelecekte FreeWilly'nin Llama 2 gibi ticari kullanıma izin vermesinin beklendiğini yanıtladı.

Ek olarak, bazı kişiler test tarafından benimsenen ölçütü sorguladı:

Bu aynı zamanda şu anda daha zor bir sorundur. Daha önce Falcon modelinin HuggingFace skor tablosunda Llama'yı ezmesi olayı tartışmalıydı.Daha sonra olay tamamen tersine döndü.Llama'nın Falcon tarafından ezilmediği ortaya çıktı ve HuggingFace bunun için liderlik tablosu kodunu da yeniden yazdı. Günümüzde büyük modellerin ortaya çıkmasıyla birlikte bu modellerin etkin bir şekilde nasıl değerlendirileceği tartışmaya değer bir sorun olmaya devam etmektedir. Bu nedenle, bu üst düzey modellere karşı daha temkinli bir tutum sergilememiz ve daha fazla değerlendirme sonucunun açıklanmasını beklememiz gerekiyor.

Referans linki:

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

Reward
like
Comment
Repost
Share

Comment

0/400

No comments

Topic
#Gate Releases August Reserves Report
11k Popularity
#BTC Hits New ATH
80k Popularity
#Show My Alpha Points
130k Popularity
#ETH Countdown To A New High
6k Popularity
#Circle Launches ARC
4k Popularity

sitemap