Đánh bại Llama 2 và cạnh tranh với GPT-3.5, mô hình mới của Stability AI đứng đầu bảng xếp hạng mô hình lớn mã nguồn mở

Nguồn gốc: Trái tim của cỗ máy

Nguồn hình ảnh: Được tạo bởi Unbounded AI‌

Trong chớp mắt, mô hình lớn nguồn mở đã được cải thiện trở lại. Google và OpenAI có thực sự không có hào?

“Tôi vừa nghỉ trưa 30 phút, và lĩnh vực của chúng ta lại thay đổi rồi à?” Sau khi xem bảng xếp hạng mô hình lớn mã nguồn mở mới nhất, một doanh nhân trong lĩnh vực AI đã hết hồn.

Liên kết bảng xếp hạng:

Các "tân binh" trong ô màu đỏ ở trên là hai mẫu lớn đến từ phòng thí nghiệm Stability AI và CarperAI: FreeWilly 1 và FreeWilly 2. Vừa rồi, họ đã vượt qua Llama-2-70b-hf do Meta phát hành ba ngày trước và thành công vươn lên dẫn đầu bảng xếp hạng LLM mở của HuggingFace.

Điều đáng chú ý hơn là FreeWilly 2 cũng đánh bại ChatGPT (GPT-3.5) trên nhiều điểm chuẩn, trở thành mô hình nguồn mở đầu tiên thực sự có thể cạnh tranh với GPT-3.5, đây là điều mà Llama 2 không làm được.

FreeWilly 1 được xây dựng trên mô hình cơ sở LLaMA 65B ban đầu và tinh chỉnh (SFT) được giám sát cẩn thận bằng cách sử dụng bộ dữ liệu tổng hợp mới ở định dạng Alpaca tiêu chuẩn. FreeWilly2 dựa trên mẫu cơ sở LLaMA 2 70B mới nhất.

Từ blog được xuất bản bởi Stability AI, chúng ta có thể thấy một số chi tiết về hai mô hình mới này:

Nguồn dữ liệu

Phương pháp đào tạo của mô hình FreeWilly được lấy cảm hứng trực tiếp từ phương pháp do Microsoft đi tiên phong trong bài viết "Orca: Học hỏi tiến bộ từ các dấu vết giải thích phức tạp của GPT-4". Mặc dù quy trình tạo dữ liệu của FreeWilly tương tự nhưng có sự khác biệt về nguồn dữ liệu.

Tập dữ liệu của FreeWilly chứa 600.000 điểm dữ liệu (xấp xỉ 10% kích thước tập dữ liệu được sử dụng trong bài báo gốc của Orca) và nó được tạo bằng cách truyền cảm hứng cho các mô hình ngôn ngữ từ tập dữ liệu hướng dẫn chất lượng cao do Enrico Shippole tạo sau đây:

  • Bản gốc COT Submix
  • NIV2 Submix Gốc
  • FLAN 2021 Submix Gốc
  • T0 Submix Gốc

Sử dụng phương pháp này, các nhà nghiên cứu đã tạo ra 500.000 ví dụ sử dụng mô hình LLM đơn giản hơn và thêm 100.000 ví dụ sử dụng mô hình LLM phức tạp hơn. Để đảm bảo so sánh công bằng, họ đã sàng lọc cẩn thận các bộ dữ liệu này và loại bỏ các ví dụ lấy từ tiêu chuẩn đánh giá. Mặc dù số lượng mẫu đào tạo chỉ bằng 1/10 so với bài báo gốc của Orca (giúp giảm đáng kể chi phí và lượng khí thải carbon của việc đào tạo mô hình so với bài báo gốc), mô hình FreeWilly thu được hoạt động tốt trên nhiều điểm chuẩn khác nhau, xác nhận tính hiệu quả của cách tiếp cận của họ với bộ dữ liệu tổng hợp.

Dữ liệu hiệu suất

Để đánh giá nội bộ các mô hình này, các nhà nghiên cứu đã sử dụng điểm chuẩn lm--harness của EleutherAI, kết hợp AGI.

Trong số đó, điểm chuẩn lm-khai thác được tạo bởi phòng thí nghiệm nghiên cứu trí tuệ nhân tạo phi lợi nhuận EleutherAI, đứng sau bảng xếp hạng HuggingFace Open LLM nói trên.

AGI được Microsoft tạo ra để đánh giá hiệu suất của mô hình cơ bản trong các bài kiểm tra tiêu chuẩn hóa "lấy con người làm trung tâm", chẳng hạn như các cuộc thi toán học và kỳ thi thanh.

Cả hai mô hình FreeWilly đều hoạt động rất tốt trên nhiều mặt, bao gồm lý luận phức tạp, hiểu được sự tinh tế của ngôn ngữ và trả lời các câu hỏi phức tạp liên quan đến các lĩnh vực chuyên biệt như câu hỏi pháp lý và toán học.

Kết quả đánh giá của hai mô hình trên điểm chuẩn lm--harness như sau (các kết quả kiểm tra FreeWilly này được đánh giá bởi các nhà nghiên cứu AI của Độ ổn định):

Hiệu suất của cả hai trên điểm chuẩn AGI như sau (tất cả đều là 0):

Ngoài ra, họ đã thử nghiệm hai mẫu trên điểm chuẩn GPT4ALL (tất cả đều là 0-shot):

Nhìn chung, hiệu suất của hai mô hình này rất tốt, tiếp tục thu hẹp khoảng cách với các mô hình AI hàng đầu như ChatGPT. Sinh viên muốn lấy mô hình có thể click vào link bên dưới.

Miễn phíWilly 1:

Tự DoWilly 2:

Đánh giá từ phản ứng của các bên, sự xuất hiện của mô hình FreeWilly đã mang đến một chút sốc cho mọi người, bởi vì chúng đến quá nhanh, dù sao thì Llama 2 cũng mới ra mắt được 3 ngày, vị trí xếp hạng không có gì hot. Một nhà nghiên cứu nói rằng anh ấy mới phẫu thuật mắt và không xem tin tức trong một tuần, nhưng cảm thấy như mình đã hôn mê trong một năm. Vì vậy, đây là giai đoạn "không thể chớp mắt".

Tuy nhiên, điều quan trọng cần lưu ý là trong khi cả hai mô hình đều là truy cập mở, không giống như Llama 2, chúng được phát hành theo giấy phép phi thương mại chỉ cho mục đích nghiên cứu.

Tuy nhiên, cách tiếp cận như vậy đã làm dấy lên nghi ngờ từ cư dân mạng.

Đáp lại, các nhà nghiên cứu của Stability AI trả lời rằng tình trạng này (chỉ dành cho mục đích nghiên cứu) chỉ là tạm thời và trong tương lai, FreeWilly dự kiến sẽ cho phép sử dụng thương mại như Llama 2.

Ngoài ra, một số người đã đặt câu hỏi về điểm chuẩn được thông qua bởi bài kiểm tra:

Đây cũng là bài toán khó hơn hiện nay. Trước đây, sự kiện mô hình Falcon nghiền nát Llama trên bảng xếp hạng HuggingFace đã gây tranh cãi, sau đó, sự kiện đã đảo ngược hoàn toàn, hóa ra Llama không bị Falcon nghiền nát và HuggingFace cũng viết lại mã bảng xếp hạng cho việc này. Ngày nay, với sự xuất hiện của các mô hình lớn, làm thế nào để đánh giá hiệu quả các mô hình này vẫn là một vấn đề đáng bàn. Do đó, chúng ta cần duy trì thái độ thận trọng hơn đối với các mô hình xếp hạng hàng đầu này và chờ đợi thêm kết quả đánh giá được công bố.

Liên kết tham khảo:

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)