Al derrotar a Llama 2 y competir contra GPT-3.5, el nuevo modelo de Stability AI encabezó la clasificación de modelos grandes de código abierto

Fuente original: Corazón de la máquina

Fuente de la imagen: Generada por Unbounded AI‌

En un abrir y cerrar de ojos, el gran modelo de código abierto ha vuelto a mejorar. ¿Google y OpenAI realmente no tienen foso?

"¿Acabo de tomar un descanso para almorzar de 30 minutos y nuestro campo ha cambiado nuevamente?" Después de ver las últimas clasificaciones de modelos grandes de código abierto, un empresario en el campo de la IA le preguntó a su alma.

Enlace de la tabla de posiciones:

Los "novatos" en el cuadro rojo de arriba son dos modelos grandes de Stability AI y CarperAI lab: FreeWilly 1 y FreeWilly 2. Justo ahora, superaron el Llama-2-70b-hf lanzado por Meta hace tres días y alcanzaron con éxito la cima de la tabla de clasificación Open LLM de HuggingFace.

Lo que es más sorprendente es que FreeWilly 2 también superó a ChatGPT (GPT-3.5) en muchos puntos de referencia, convirtiéndose en el primer modelo de código abierto que realmente puede competir con GPT-3.5, algo que Llama 2 no hizo.

FreeWilly 1 se basa en el modelo base original LLaMA 65B y cuenta con un ajuste fino (SFT) cuidadosamente supervisado utilizando nuevos conjuntos de datos sintéticos en el formato Alpaca estándar. FreeWilly2 se basa en el último modelo base LLaMA 2 70B.

Desde el blog publicado por Stability AI, podemos ver algunos detalles de estos dos nuevos modelos:

Fuentes de datos

El método de entrenamiento del modelo FreeWilly está directamente inspirado en el método iniciado por Microsoft en su artículo "Orca: aprendizaje progresivo a partir de trazas de explicación complejas de GPT-4". Si bien el proceso de generación de datos de FreeWilly es similar, existen diferencias en la fuente de los datos.

El conjunto de datos de FreeWilly contiene 600 000 puntos de datos (aproximadamente el 10 % del tamaño del conjunto de datos utilizado en el artículo original de Orca), y se generó inspirando modelos de lenguaje a partir del siguiente conjunto de datos de instrucción de alta calidad creado por Enrico Shippole:

  • COT Submezcla Original
  • NIV2 Submezcla Original
  • FLAN 2021 Submezcla Original
  • T0 Submezcla Original

Usando este enfoque, los investigadores generaron 500 000 ejemplos usando un modelo LLM más simple y 100 000 ejemplos adicionales usando un modelo LLM más complejo. Para garantizar una comparación justa, revisaron cuidadosamente estos conjuntos de datos y eliminaron ejemplos derivados del punto de referencia de evaluación. Aunque la cantidad de muestras de capacitación es solo 1/10 del artículo original de Orca (reduciendo significativamente el costo y la huella de carbono de entrenar el modelo en comparación con el artículo original), el modelo FreeWilly resultante funcionó bien en varios puntos de referencia, validando la efectividad de su enfoque con conjuntos de datos sintéticos.

Datos de rendimiento

Para la evaluación interna de estos modelos, los investigadores utilizaron el punto de referencia lm-harness de EleutherAI, que incorpora AGI.

Entre ellos, el punto de referencia lm--harness fue creado por el laboratorio de investigación de inteligencia artificial sin fines de lucro EleutherAI, que está detrás de la tabla de clasificación HuggingFace Open LLM antes mencionada.

AGI fue creado por Microsoft para evaluar el rendimiento del modelo subyacente en pruebas estandarizadas "centradas en el ser humano", como competencias de matemáticas y exámenes de la barra.

Ambos modelos de FreeWilly funcionan muy bien en muchos frentes, incluido el razonamiento complejo, la comprensión de las sutilezas del lenguaje y la respuesta a preguntas complejas que involucran dominios especializados, como preguntas legales y matemáticas.

Los resultados de la evaluación de los dos modelos en el punto de referencia lm--harness son los siguientes (estos resultados de la prueba FreeWilly fueron evaluados por investigadores de Stability AI):

El rendimiento de los dos en el punto de referencia AGI es el siguiente (todas 0-shot):

Además, probaron dos modelos en el punto de referencia GPT4ALL (todos 0-shot):

En general, el rendimiento de estos dos modelos es muy bueno, lo que reduce aún más la brecha con los mejores modelos de IA, como ChatGPT. Los estudiantes que deseen obtener el modelo pueden hacer clic en el enlace a continuación.

Libre Willy 1:

Libre Willy 2:

A juzgar por las reacciones de todas las partes, la aparición del modelo FreeWilly ha sorprendido un poco a todos, porque llegaron demasiado rápido.Después de todo, Llama 2 solo se lanzó durante 3 días y la posición en el ranking no es buena. Un investigador dijo que recientemente se sometió a una cirugía ocular y no vio las noticias durante una semana, pero sintió que había estado en coma durante un año. Entonces, este es un período de "no puedo parpadear".

Sin embargo, es importante tener en cuenta que, si bien ambos modelos son de acceso abierto, a diferencia de Llama 2, se publican bajo una licencia no comercial solo con fines de investigación.

Sin embargo, tal enfoque ha despertado dudas entre los internautas.

En respuesta, los investigadores de Stability AI respondieron que esta situación (solo con fines de investigación) es solo temporal y, en el futuro, se espera que FreeWilly permita el uso comercial como Llama 2.

Además, algunas personas han cuestionado el punto de referencia adoptado por la prueba:

Este es también un problema más difícil en la actualidad. Anteriormente, el evento de que el modelo Falcon aplastó a Llama en la tabla de clasificación de HuggingFace fue controvertido. Más tarde, el evento se revirtió por completo. Resultó que Llama no fue aplastada por Falcon, y HuggingFace también reescribió el código de la tabla de clasificación para esto. Hoy en día, con la aparición de modelos grandes, cómo evaluar estos modelos de manera efectiva sigue siendo un problema digno de discusión. Por lo tanto, es necesario que mantengamos una actitud más cautelosa hacia estos modelos de alto rango y esperemos a que se publiquen más resultados de evaluación.

Link de referencia:

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Opere con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)