Перемігши Llama 2 і конкуруючи з GPT-3.5, нова модель Stability AI очолила рейтинг великих моделей з відкритим кодом

Оригінальне джерело: Heart of the Machine

Джерело зображення: створено Unbounded AI‌

В мить ока велика модель з відкритим кодом знову покращилася. Невже у Google і OpenAI немає рову?

«Я щойно взяв 30-хвилинну перерву на обід, і наша сфера діяльності знову змінилася?» — запитав свою душу підприємець у сфері штучного інтелекту, переглянувши останні рейтинги великих моделей з відкритим кодом.

Посилання на таблицю лідерів:

«Новачки» в червоному полі вище — це дві великі моделі від Stability AI і лабораторії CarperAI: FreeWilly 1 і FreeWilly 2. Щойно вони перевершили Llama-2-70b-hf, випущений Meta три дні тому, і успішно досягли вершини таблиці лідерів Open LLM HuggingFace.

Більше вражає те, що FreeWilly 2 також переміг ChatGPT (GPT-3.5) у багатьох тестах, ставши першою моделлю з відкритим вихідним кодом, яка справді може конкурувати з GPT-3.5, чого не вдалося Llama 2.

FreeWilly 1 побудовано на основі оригінальної базової моделі LLaMA 65B і ретельно контрольованого тонкого налаштування (SFT) з використанням нових синтетичних наборів даних у стандартному форматі Alpaca. FreeWilly2 базується на новітній базовій моделі LLaMA 2 70B.

У блозі, опублікованому Stability AI, ми можемо побачити деякі деталі цих двох нових моделей:

Джерела даних

Метод навчання моделі FreeWilly безпосередньо натхненний методом, вперше запровадженим Microsoft у їхній статті «Orca: прогресивне навчання на основі складних пояснень GPT-4». Хоча процес створення даних у FreeWilly схожий, існують відмінності в джерелі даних.

Набір даних FreeWilly містить 600 000 точок даних (приблизно 10% від розміру набору даних, який використовувався в оригінальному папері Orca), і він був створений за допомогою надихаючих мовних моделей із наступного високоякісного набору даних інструкцій, створеного Енріко Шипполом:

  • COT Submix Original
  • NIV2 Submix Original
  • Оригінальний субмікс FLAN 2021
  • T0 Submix Original

Використовуючи цей підхід, дослідники створили 500 000 прикладів, використовуючи простішу модель LLM, і додаткові 100 000 прикладів, використовуючи більш складну модель LLM. Щоб забезпечити справедливе порівняння, вони ретельно перевірили ці набори даних і вилучили приклади, отримані з порівняльного тесту. Хоча кількість навчальних зразків становить лише 1/10 від початкового паперу Orca (що значно зменшує вартість і вуглецевий слід навчання моделі порівняно з вихідним папером), отримана модель FreeWilly добре працює на різних тестах, підтверджуючи ефективність їхнього підходу за допомогою синтетичних наборів даних.

Дані продуктивності

Для внутрішньої оцінки цих моделей дослідники використовували тест EleutherAI lm-harness, що включає AGI.

Серед них тест lm-harness був створений некомерційною дослідницькою лабораторією штучного інтелекту EleutherAI, яка стоїть за вищезгаданою таблицею лідерів HuggingFace Open LLM.

AGI був створений корпорацією Майкрософт для оцінки ефективності основної моделі на «людиноорієнтованих» стандартизованих тестах, таких як математичні змагання та іспити на адвокатуру.

Обидві моделі FreeWilly дуже добре працюють на багатьох фронтах, включаючи складне міркування, розуміння тонкощів мови та відповіді на складні запитання, що стосуються спеціалізованих областей, таких як юридичні та математичні питання.

Результати оцінювання двох моделей у тесті lm-harness такі (ці результати тесту FreeWilly були оцінені дослідниками Stability AI):

Ефективність обох за тестом AGI виглядає наступним чином (усі 0-постріли):

Крім того, вони протестували дві моделі в бенчмарку GPT4ALL (усі 0-shot):

Загалом продуктивність цих двох моделей дуже хороша, що ще більше скорочує розрив із найкращими моделями ШІ, такими як ChatGPT. Студенти, які хочуть отримати модель, можуть натиснути посилання нижче.

FreeWilly 1:

FreeWilly 2:

Судячи з реакції всіх сторін, поява моделі FreeWilly викликала невеликий шок у всіх, тому що вони прийшли занадто швидко, адже Llama 2 була запущена лише 3 дні, і позиція в рейтингу не є гарячою. Один дослідник сказав, що нещодавно переніс операцію на оці і тиждень не дивився новини, але почувався так, наче рік був у комі. Отже, це період «не можна моргнути».

Однак важливо зазначити, що хоча обидві моделі є відкритими, на відміну від Llama 2 вони випущені за некомерційною ліцензією лише для дослідницьких цілей.

Однак такий підхід викликав сумніви у користувачів мережі.

У відповідь дослідники Stability AI відповіли, що ця ситуація (тільки для дослідницьких цілей) лише тимчасова, і в майбутньому очікується, що FreeWilly дозволить комерційне використання, як Llama 2.

Крім того, деякі люди поставили під сумнів еталон, прийнятий у тесті:

Це також більш складна проблема на даний момент. Раніше подія, коли модель Falcon розбила Llama в таблиці лідерів HuggingFace, була суперечливою. Пізніше подія була повністю перевернута. Виявилося, що Llama не була розчавлена Falcon, і HuggingFace також переписав код таблиці лідерів для цього. Сьогодні, з появою великих моделей, як ефективно оцінити ці моделі, все ще залишається проблема, яка заслуговує на обговорення. Тому нам необхідно більш обережно ставитися до цих топових моделей і чекати оприлюднення додаткових результатів оцінки.

Довідкове посилання:

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити