بعد هزيمة Llama 2 والتنافس ضد GPT-3.5 ، تصدّر نموذج Stability AI الجديد تصنيفات النماذج الكبيرة مفتوحة المصدر

المصدر الأصلي: قلب الآلة

مصدر الصورة: تم إنشاؤه بواسطة Unbounded AI‌

في غمضة عين ، تحسن النموذج الكبير مفتوح المصدر مرة أخرى. هل Google و OpenAI ليس لديهما خندق مائي حقًا؟

"لقد أخذت للتو استراحة غداء مدتها 30 دقيقة ، وقد تغير مجالنا مرة أخرى؟" بعد رؤية أحدث تصنيفات النماذج الكبيرة مفتوحة المصدر ، سأل أحد رواد الأعمال في مجال الذكاء الاصطناعي روحه.

رابط ليدربورد:

"المبتدئين" في المربع الأحمر أعلاه هما نموذجان كبيران من Stability AI و CarperAI lab: FreeWilly 1 و FreeWilly 2. الآن فقط ، تجاوزوا Llama-2-70b-hf الذي أصدرته Meta قبل ثلاثة أيام ، ووصلوا بنجاح إلى قمة HuggingFace's Open LLM المتصدرين.

الأمر الأكثر إثارة للدهشة هو أن FreeWilly 2 تغلب أيضًا على ChatGPT (GPT-3.5) في العديد من المعايير ، ليصبح أول نموذج مفتوح المصدر يمكنه منافسة GPT-3.5 ، وهو شيء لم تفعله Llama 2.

تم تصميم FreeWilly 1 وفقًا لنموذج قاعدة LLaMA 65B الأصلي وخضع للإشراف الدقيق (SFT) باستخدام مجموعات بيانات تركيبية جديدة بتنسيق Alpaca القياسي. يعتمد FreeWilly2 على أحدث طراز أساسي LLaMA 2 70B.

من المدونة التي نشرتها Stability AI ، يمكننا أن نرى بعض التفاصيل لهذين النموذجين الجديدين:

مصادر البيانات

طريقة التدريب لنموذج FreeWilly مستوحاة مباشرة من الطريقة التي ابتكرتها Microsoft في ورقتهم "Orca: التعلم التقدمي من آثار الشرح المعقدة لـ GPT-4". في حين أن عملية توليد البيانات في FreeWilly متشابهة ، إلا أن هناك اختلافات في مصدر البيانات.

تحتوي مجموعة بيانات FreeWilly على 600000 نقطة بيانات (حوالي 10٪ من حجم مجموعة البيانات المستخدمة في ورقة Orca الأصلية) ، وقد تم إنشاؤها بواسطة نماذج لغة ملهمة من مجموعة بيانات التعليمات عالية الجودة التالية التي أنشأها Enrico Shippole:

  • COT Submix Original
  • NIV2 Submix Original
  • FLAN 2021 Submix Original
  • T0 Submix Original

باستخدام هذا النهج ، أنتج الباحثون 500000 مثال باستخدام نموذج LLM أبسط و 100000 مثال إضافي باستخدام نموذج LLM أكثر تعقيدًا. لضمان إجراء مقارنة عادلة ، قاموا بفحص مجموعات البيانات هذه بعناية وإزالة الأمثلة المستمدة من معيار التقييم. على الرغم من أن عدد عينات التدريب هو 1/10 فقط من ورقة Orca الأصلية (مما يقلل بشكل كبير من التكلفة والبصمة الكربونية لتدريب النموذج مقارنةً بالورقة الأصلية) ، فإن نموذج FreeWilly الناتج يؤدي أداءً جيدًا على معايير مختلفة ، مما يثبت فعالية نهجهم مع مجموعات البيانات الاصطناعية.

بيانات الأداء

للتقييم الداخلي لهذه النماذج ، استخدم الباحثون مقياس تسخير lm الخاص بـ EleutherAI ، والذي يتضمن AGI.

من بينها ، تم إنشاء معيار lm - harness بواسطة مختبر أبحاث الذكاء الاصطناعي غير الربحي EleutherAI ، والذي يقف وراء لوحة المتصدرين HuggingFace Open LLM المذكورة أعلاه.

تم إنشاء AGI بواسطة Microsoft لتقييم أداء النموذج الأساسي في الاختبارات المعيارية "المرتكزة على الإنسان" ، مثل مسابقات الرياضيات وامتحانات المحامين.

يعمل كلا نموذجي FreeWilly جيدًا بشكل استثنائي على العديد من الجبهات ، بما في ذلك التفكير المعقد وفهم التفاصيل الدقيقة للغة والإجابة على الأسئلة المعقدة التي تتضمن مجالات متخصصة مثل الأسئلة القانونية والرياضية.

نتائج التقييم للنموذجين على مقياس lm - harness هي كما يلي (تم تقييم نتائج اختبار FreeWilly هذه من قبل باحثين في منظمة Stability AI):

أداء الاثنين على معيار AGI كما يلي (كل 0 لقطة):

بالإضافة إلى ذلك ، قاموا باختبار نموذجين على معيار GPT4ALL (كل لقطات 0):

بشكل عام ، أداء هذين النموذجين جيد جدًا ، مما يزيد من تضييق الفجوة مع أفضل نماذج الذكاء الاصطناعي مثل ChatGPT. يمكن للطلاب الذين يرغبون في الحصول على النموذج النقر فوق الارتباط أدناه.

فري ويلي 1 :

فري ويلي 2 :

انطلاقا من ردود أفعال جميع الأطراف ، فإن ظهور نموذج FreeWilly قد تسبب في صدمة صغيرة للجميع ، لأنها جاءت بسرعة كبيرة. بعد كل شيء ، تم إطلاق Llama 2 لمدة 3 أيام فقط ، وموقع الترتيب ليس ساخنًا. قال أحد الباحثين إنه خضع لعملية جراحية في العيون مؤخرًا ولم يشاهد الأخبار لمدة أسبوع ، لكنه شعر وكأنه في غيبوبة لمدة عام. لذلك ، هذه فترة "لا يمكن أن تومض".

ومع ذلك ، من المهم ملاحظة أنه على الرغم من أن كلا الطرازين متاحان للوصول المفتوح ، على عكس Llama 2 ، فقد تم إصدارهما بموجب ترخيص غير تجاري لأغراض البحث فقط.

ومع ذلك ، فقد أثار هذا النهج شكوك مستخدمي الإنترنت.

رداً على ذلك ، أجاب باحثو منظمة العفو الدولية في الاستقرار أن هذا الموقف (للأغراض البحثية فقط) مؤقت فقط ، وفي المستقبل ، من المتوقع أن تسمح FreeWilly بالاستخدام التجاري مثل Llama 2.

بالإضافة إلى ذلك ، شكك بعض الأشخاص في المعيار المعتمد في الاختبار:

هذه أيضًا مشكلة أكثر صعوبة في الوقت الحاضر. في السابق ، كان الحدث الذي قام فيه نموذج Falcon بسحق Llama على لوحة المتصدرين HuggingFace مثيرًا للجدل. وفي وقت لاحق ، تم عكس الحدث تمامًا. واتضح أن Llama لم يتم سحقها بواسطة Falcon ، كما أعاد HuggingFace كتابة رمز لوحة المتصدرين لهذا الغرض. اليوم ، مع ظهور النماذج الكبيرة ، لا تزال كيفية تقييم هذه النماذج بفعالية مشكلة تستحق المناقشة. لذلك ، من الضروري بالنسبة لنا أن نحافظ على موقف أكثر حذرًا تجاه هذه النماذج ذات التصنيف الأعلى وانتظار المزيد من نتائج التقييم ليتم إصدارها.

  • رابط المرجع: *
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت