En un clin d'œil, le grand modèle open source s'est encore amélioré. Google et OpenAI n'ont-ils vraiment pas de bastille ?
"Je viens de prendre une pause déjeuner de 30 minutes, et notre domaine a encore changé ?" Après avoir vu les derniers classements open source des grands modèles, un entrepreneur dans le domaine de l'IA s'est interrogé sur son âme.
Lien vers le classement :
Les "rookies" dans la case rouge ci-dessus sont deux grands modèles du laboratoire Stability AI et CarperAI : FreeWilly 1 et FreeWilly 2. Tout à l'heure, ils ont dépassé le Llama-2-70b-hf publié par Meta il y a trois jours et ont atteint avec succès le sommet du classement Open LLM de HuggingFace.
Ce qui est plus frappant, c'est que FreeWilly 2 a également battu ChatGPT (GPT-3.5) sur de nombreux benchmarks, devenant ainsi le premier grand modèle open source qui peut vraiment rivaliser avec GPT-3.5, ce que Llama 2 n'a pas fait.
FreeWilly 1 est construit sur le modèle de base LLaMA 65B original et un réglage fin (SFT) soigneusement supervisé à l'aide de nouveaux ensembles de données synthétiques au format Alpaca standard. FreeWilly2 est basé sur le dernier modèle de base LLaMA 2 70B.
Depuis le blog publié par Stability AI, on peut voir quelques détails sur ces deux nouveaux modèles :
Les sources de données
La méthode d'apprentissage du modèle FreeWilly est directement inspirée de la méthode mise au point par Microsoft dans son article "Orca : Progressive Learning from Complex Explanation Traces of GPT-4". Bien que le processus de génération de données de FreeWilly soit similaire, il existe des différences dans la source des données.
L'ensemble de données de FreeWilly contient 600 000 points de données (environ 10 % de la taille de l'ensemble de données utilisé dans l'article original d'Orca), et il a été généré en inspirant des modèles de langage à partir de l'ensemble de données d'instructions de haute qualité suivant créé par Enrico Shippole :
COT Submix Original
Original du sous-mix NIV2
Sous-mixage FLAN 2021 Original
Original de sous-mixage T0
En utilisant cette approche, les chercheurs ont généré 500 000 exemples à l'aide d'un modèle LLM plus simple et 100 000 exemples supplémentaires à l'aide d'un modèle LLM plus complexe. Pour garantir une comparaison équitable, ils ont soigneusement examiné ces ensembles de données et supprimé les exemples dérivés du référentiel d'évaluation. Bien que le nombre d'échantillons d'apprentissage ne représente que 1/10 du papier Orca d'origine (ce qui réduit considérablement le coût et l'empreinte carbone de la formation du modèle par rapport au papier d'origine), le modèle FreeWilly qui en résulte fonctionne bien sur divers benchmarks, validant l'efficacité de leur approche avec des ensembles de données synthétiques.
Données de performance
Pour l'évaluation interne de ces modèles, les chercheurs ont utilisé le benchmark lm-harness d'EleutherAI, incorporant l'AGI.
Parmi eux, le benchmark lm-harness a été créé par le laboratoire de recherche en intelligence artificielle à but non lucratif EleutherAI, qui est à l'origine du classement susmentionné HuggingFace Open LLM.
AGI a été créé par Microsoft pour évaluer les performances du modèle sous-jacent sur des tests standardisés "centrés sur l'humain", tels que les concours de mathématiques et les examens du barreau.
Les deux modèles FreeWilly fonctionnent exceptionnellement bien sur de nombreux fronts, y compris le raisonnement complexe, la compréhension des subtilités du langage et la réponse à des questions complexes impliquant des domaines spécialisés tels que des questions juridiques et mathématiques.
Les résultats d'évaluation des deux modèles sur le benchmark lm-harness sont les suivants (ces résultats de test FreeWilly ont été évalués par les chercheurs de Stability AI) :
Les performances des deux sur le benchmark AGI sont les suivantes (tous à 0 coup):
De plus, ils ont testé deux modèles sur le benchmark GPT4ALL (tous 0-shot) :
Dans l'ensemble, les performances de ces deux modèles sont très bonnes, ce qui réduit encore l'écart avec les meilleurs modèles d'IA tels que ChatGPT. Les étudiants qui souhaitent obtenir le modèle peuvent cliquer sur le lien ci-dessous.
Free Willy 1:
Free Willy 2:
À en juger par les réactions de toutes les parties, l'apparition du modèle FreeWilly a provoqué un petit choc pour tout le monde, car ils sont venus trop vite.Après tout, Llama 2 n'est lancé que depuis 3 jours et la position de classement n'est pas chaude. Un chercheur a déclaré qu'il avait récemment subi une chirurgie oculaire et qu'il n'avait pas regardé les informations pendant une semaine, mais qu'il avait l'impression d'être dans le coma depuis un an. Donc, c'est une période "ne peut pas cligner des yeux".
Cependant, il est important de noter que bien que les deux modèles soient en libre accès, contrairement à Llama 2, ils sont publiés sous une licence non commerciale à des fins de recherche uniquement.
Cependant, une telle approche a suscité des doutes chez les internautes.
En réponse, les chercheurs de Stability AI ont répondu que cette situation (à des fins de recherche uniquement) n'est que temporaire et qu'à l'avenir, FreeWilly devrait permettre une utilisation commerciale comme Llama 2.
De plus, certains ont remis en cause le benchmark adopté par le test :
C'est aussi un problème plus difficile à l'heure actuelle. Auparavant, l'événement où le modèle Falcon avait écrasé Llama dans le classement HuggingFace était controversé. Plus tard, l'événement a été complètement inversé. Il s'est avéré que Llama n'a pas été écrasé par Falcon, et HuggingFace a également réécrit le code du classement pour cela. Aujourd'hui, avec l'émergence de grands modèles, comment évaluer efficacement ces modèles reste un problème digne de discussion. Par conséquent, il est nécessaire pour nous de maintenir une attitude plus prudente envers ces modèles de premier plan et d'attendre que d'autres résultats d'évaluation soient publiés.
Lien de référence :
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
En battant Llama 2 et en compétition contre GPT-3.5, le nouveau modèle de Stability AI a dominé le classement des grands modèles open source
Source originale : Cœur de la machine
En un clin d'œil, le grand modèle open source s'est encore amélioré. Google et OpenAI n'ont-ils vraiment pas de bastille ?
"Je viens de prendre une pause déjeuner de 30 minutes, et notre domaine a encore changé ?" Après avoir vu les derniers classements open source des grands modèles, un entrepreneur dans le domaine de l'IA s'est interrogé sur son âme.
Les "rookies" dans la case rouge ci-dessus sont deux grands modèles du laboratoire Stability AI et CarperAI : FreeWilly 1 et FreeWilly 2. Tout à l'heure, ils ont dépassé le Llama-2-70b-hf publié par Meta il y a trois jours et ont atteint avec succès le sommet du classement Open LLM de HuggingFace.
Ce qui est plus frappant, c'est que FreeWilly 2 a également battu ChatGPT (GPT-3.5) sur de nombreux benchmarks, devenant ainsi le premier grand modèle open source qui peut vraiment rivaliser avec GPT-3.5, ce que Llama 2 n'a pas fait.
Depuis le blog publié par Stability AI, on peut voir quelques détails sur ces deux nouveaux modèles :
Les sources de données
La méthode d'apprentissage du modèle FreeWilly est directement inspirée de la méthode mise au point par Microsoft dans son article "Orca : Progressive Learning from Complex Explanation Traces of GPT-4". Bien que le processus de génération de données de FreeWilly soit similaire, il existe des différences dans la source des données.
L'ensemble de données de FreeWilly contient 600 000 points de données (environ 10 % de la taille de l'ensemble de données utilisé dans l'article original d'Orca), et il a été généré en inspirant des modèles de langage à partir de l'ensemble de données d'instructions de haute qualité suivant créé par Enrico Shippole :
En utilisant cette approche, les chercheurs ont généré 500 000 exemples à l'aide d'un modèle LLM plus simple et 100 000 exemples supplémentaires à l'aide d'un modèle LLM plus complexe. Pour garantir une comparaison équitable, ils ont soigneusement examiné ces ensembles de données et supprimé les exemples dérivés du référentiel d'évaluation. Bien que le nombre d'échantillons d'apprentissage ne représente que 1/10 du papier Orca d'origine (ce qui réduit considérablement le coût et l'empreinte carbone de la formation du modèle par rapport au papier d'origine), le modèle FreeWilly qui en résulte fonctionne bien sur divers benchmarks, validant l'efficacité de leur approche avec des ensembles de données synthétiques.
Données de performance
Pour l'évaluation interne de ces modèles, les chercheurs ont utilisé le benchmark lm-harness d'EleutherAI, incorporant l'AGI.
Parmi eux, le benchmark lm-harness a été créé par le laboratoire de recherche en intelligence artificielle à but non lucratif EleutherAI, qui est à l'origine du classement susmentionné HuggingFace Open LLM.
AGI a été créé par Microsoft pour évaluer les performances du modèle sous-jacent sur des tests standardisés "centrés sur l'humain", tels que les concours de mathématiques et les examens du barreau.
Les deux modèles FreeWilly fonctionnent exceptionnellement bien sur de nombreux fronts, y compris le raisonnement complexe, la compréhension des subtilités du langage et la réponse à des questions complexes impliquant des domaines spécialisés tels que des questions juridiques et mathématiques.
Les résultats d'évaluation des deux modèles sur le benchmark lm-harness sont les suivants (ces résultats de test FreeWilly ont été évalués par les chercheurs de Stability AI) :
Free Willy 1:
Free Willy 2:
À en juger par les réactions de toutes les parties, l'apparition du modèle FreeWilly a provoqué un petit choc pour tout le monde, car ils sont venus trop vite.Après tout, Llama 2 n'est lancé que depuis 3 jours et la position de classement n'est pas chaude. Un chercheur a déclaré qu'il avait récemment subi une chirurgie oculaire et qu'il n'avait pas regardé les informations pendant une semaine, mais qu'il avait l'impression d'être dans le coma depuis un an. Donc, c'est une période "ne peut pas cligner des yeux".
Lien de référence :