Fuente de la imagen: Generada por la herramienta de IA Unbounded
Stability AI es conocida por su modelo generativo de texto a imagen de difusión estable, pero eso no es todo lo que la startup de IA generativa está interesada en desarrollar. Stability AI se está metiendo en el mundo de la generación de código.
El 8 de agosto, Stability AI anunció el primer lanzamiento público de StableCode, su nuevo modelo abierto de lenguaje grande (LLM) diseñado para ayudar a los usuarios a generar código para lenguajes de programación. StableCode tiene tres niveles diferentes: un modelo base para casos de uso general, un modelo de instrucción y un modelo de ventana de contexto largo que puede admitir hasta 16000 tokens.
*Fuente: Stability AI (Comparación de Stability AI con otros modelos con un número similar de parámetros y número de tokens entrenados. Stability AI utiliza el popular punto de referencia humano con métricas estándar pass@1 y pass@10.)*
Los modelos de StableCode se benefician de los conjuntos de datos del lenguaje de programación inicial del proyecto BigCode de código abierto, con filtrado adicional y ajustes proporcionados por Stability AI. Inicialmente, StableCode admitirá el desarrollo en los lenguajes de programación Python, Go, Java, Java, C, Markdown y C++.
“Queremos usar este modelo para hacer algo similar a Stable Diffusion, cuyo objetivo es ayudar a todos en el mundo a convertirse en artistas”, dijo Christian Laforte, director de investigación de Stability AI, en una entrevista exclusiva con VentureBeat. el modelo de StableCode para hacer lo mismo: básicamente dejar que cualquier persona con una buena idea escriba un programa para resolver este problema".
StableCode: construyendo sobre BigCode y grandes ideas
La capacitación de cualquier LLM se basa en datos, y para StableCode, estos datos provienen del proyecto BigCode. Usar BigCode como base para una herramienta de código de IA generativa LLM no es una idea nueva. HuggingFace y ServiceNow lanzaron el StarCoder LLM abierto en mayo de este año, cuya base es BigCode.
El científico investigador principal de Stability AI, Nathan Cooper, explicó en una entrevista exclusiva con VentureBeat que la capacitación para StableCode implicó un filtrado y una limpieza exhaustivos de los datos de BigCode.
“Realmente nos gusta BigCode, han realizado un gran trabajo increíble en la gobernanza de datos, la gobernanza de modelos y la capacitación de modelos”, dijo Cooper. "Tomamos su conjunto de datos y aplicamos filtros de calidad adicionales, y también construimos una versión de ventana de contexto grande del modelo, que luego se entrenó en nuestro grupo".
Stability AI realiza una serie de pasos de entrenamiento además del modelo central de BigCode, dijo Cooper. Estos pasos incluyen entrenamientos sucesivos en un lenguaje de programación específico. Según la descripción en el sitio web oficial, StableCode entrenó el modelo con 560 mil millones de tokens de código en su clúster de computación de alto rendimiento.
"Se necesita un enfoque muy similar al campo del lenguaje natural al entrenar previamente un modelo de propósito general y luego ajustarlo en un conjunto específico de tareas, en este caso, el lenguaje", dijo Cooper.
StableCode Una longitud de token más larga cambiará las reglas del juego de generación de código
Además de la base BigCode, la versión de contexto largo de StableCode brinda importantes beneficios a los usuarios.
La versión de ventana de contexto larga de StableCode tiene una ventana de contexto de 16 000 tokens, que, según Stability AI, es más grande que cualquier otro modelo. Las ventanas de contexto más largas permiten sugerencias de generación de código más especializadas y complejas, explicó Cooper. Esto también significa que los usuarios pueden hacer que StableCode observe una base de código de tamaño moderado con varios archivos para ayudar a comprender y generar código nuevo.
"Puede usar esta ventana de contexto más larga para permitir que el modelo aprenda más sobre su base de código y qué características están definidas en otros archivos", dijo Cooper. base de código y requisitos.
Mejor generación de código con RoPE
Como todos los modelos generativos de IA modernos, StableCode se basa en redes neuronales de transformadores.
En lugar de usar el método ALiBi (Atención con sesgos lineales) para localizar la salida en el modelo de transformador (que StarCoder usa en su modelo de codificación de IA generativa abierta), StableCode usa un método llamado RoPE.
El enfoque ALiBi en el modelo de transformador tiende a pesar más en los tokens actuales que en los tokens anteriores, dijo Cooper. En su opinión, este no es un enfoque ideal para el código porque, a diferencia del lenguaje natural, el código no tiene una estructura narrativa fija con un principio, un medio y un final. La funcionalidad del código se puede definir para cualquier punto del proceso de solicitud.
"No creo que el código en sí se ajuste a la idea de que esta compensación es más importante ahora de lo que solía ser, por lo que usamos... RoPE, [que] no tiene ese sesgo".
Actualmente, StableCode se encuentra en sus primeras etapas, y el objetivo de la primera versión es comprender cómo los desarrolladores adoptarán y utilizarán el modelo.
“Estaremos comprometiéndonos y colaborando con la comunidad para ver qué direcciones geniales se les ocurren y explorando el espacio de desarrollo generativo”, dijo Cooper.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
Stability AI entra en el campo de la programación y lanza StableCode, una herramienta con una ventana de contexto de hasta 16.000 tokens
Escrito por: Sean Michael Kerner
Fuente: VentureBeat
Stability AI es conocida por su modelo generativo de texto a imagen de difusión estable, pero eso no es todo lo que la startup de IA generativa está interesada en desarrollar. Stability AI se está metiendo en el mundo de la generación de código.
El 8 de agosto, Stability AI anunció el primer lanzamiento público de StableCode, su nuevo modelo abierto de lenguaje grande (LLM) diseñado para ayudar a los usuarios a generar código para lenguajes de programación. StableCode tiene tres niveles diferentes: un modelo base para casos de uso general, un modelo de instrucción y un modelo de ventana de contexto largo que puede admitir hasta 16000 tokens.
Los modelos de StableCode se benefician de los conjuntos de datos del lenguaje de programación inicial del proyecto BigCode de código abierto, con filtrado adicional y ajustes proporcionados por Stability AI. Inicialmente, StableCode admitirá el desarrollo en los lenguajes de programación Python, Go, Java, Java, C, Markdown y C++.
“Queremos usar este modelo para hacer algo similar a Stable Diffusion, cuyo objetivo es ayudar a todos en el mundo a convertirse en artistas”, dijo Christian Laforte, director de investigación de Stability AI, en una entrevista exclusiva con VentureBeat. el modelo de StableCode para hacer lo mismo: básicamente dejar que cualquier persona con una buena idea escriba un programa para resolver este problema".
StableCode: construyendo sobre BigCode y grandes ideas
La capacitación de cualquier LLM se basa en datos, y para StableCode, estos datos provienen del proyecto BigCode. Usar BigCode como base para una herramienta de código de IA generativa LLM no es una idea nueva. HuggingFace y ServiceNow lanzaron el StarCoder LLM abierto en mayo de este año, cuya base es BigCode.
El científico investigador principal de Stability AI, Nathan Cooper, explicó en una entrevista exclusiva con VentureBeat que la capacitación para StableCode implicó un filtrado y una limpieza exhaustivos de los datos de BigCode.
“Realmente nos gusta BigCode, han realizado un gran trabajo increíble en la gobernanza de datos, la gobernanza de modelos y la capacitación de modelos”, dijo Cooper. "Tomamos su conjunto de datos y aplicamos filtros de calidad adicionales, y también construimos una versión de ventana de contexto grande del modelo, que luego se entrenó en nuestro grupo".
Stability AI realiza una serie de pasos de entrenamiento además del modelo central de BigCode, dijo Cooper. Estos pasos incluyen entrenamientos sucesivos en un lenguaje de programación específico. Según la descripción en el sitio web oficial, StableCode entrenó el modelo con 560 mil millones de tokens de código en su clúster de computación de alto rendimiento.
"Se necesita un enfoque muy similar al campo del lenguaje natural al entrenar previamente un modelo de propósito general y luego ajustarlo en un conjunto específico de tareas, en este caso, el lenguaje", dijo Cooper.
StableCode Una longitud de token más larga cambiará las reglas del juego de generación de código
Además de la base BigCode, la versión de contexto largo de StableCode brinda importantes beneficios a los usuarios.
La versión de ventana de contexto larga de StableCode tiene una ventana de contexto de 16 000 tokens, que, según Stability AI, es más grande que cualquier otro modelo. Las ventanas de contexto más largas permiten sugerencias de generación de código más especializadas y complejas, explicó Cooper. Esto también significa que los usuarios pueden hacer que StableCode observe una base de código de tamaño moderado con varios archivos para ayudar a comprender y generar código nuevo.
"Puede usar esta ventana de contexto más larga para permitir que el modelo aprenda más sobre su base de código y qué características están definidas en otros archivos", dijo Cooper. base de código y requisitos.
Mejor generación de código con RoPE
Como todos los modelos generativos de IA modernos, StableCode se basa en redes neuronales de transformadores.
En lugar de usar el método ALiBi (Atención con sesgos lineales) para localizar la salida en el modelo de transformador (que StarCoder usa en su modelo de codificación de IA generativa abierta), StableCode usa un método llamado RoPE.
El enfoque ALiBi en el modelo de transformador tiende a pesar más en los tokens actuales que en los tokens anteriores, dijo Cooper. En su opinión, este no es un enfoque ideal para el código porque, a diferencia del lenguaje natural, el código no tiene una estructura narrativa fija con un principio, un medio y un final. La funcionalidad del código se puede definir para cualquier punto del proceso de solicitud.
"No creo que el código en sí se ajuste a la idea de que esta compensación es más importante ahora de lo que solía ser, por lo que usamos... RoPE, [que] no tiene ese sesgo".
Actualmente, StableCode se encuentra en sus primeras etapas, y el objetivo de la primera versión es comprender cómo los desarrolladores adoptarán y utilizarán el modelo.
“Estaremos comprometiéndonos y colaborando con la comunidad para ver qué direcciones geniales se les ocurren y explorando el espacio de desarrollo generativo”, dijo Cooper.