Source de l'image : générée par l'outil d'IA illimitée
Depuis 2023, le mot le plus en vogue dans le cercle technologique est ChatGPT et la technologie de modèle à grande échelle qui le sous-tend.
Auparavant, il y avait Baidu Wenxin Yiyan, Alibaba Cloud Tongyi Qianwen, Huawei Pangu, HKUST Xunfei Xinghuo, etc. Récemment, Li Kaifu est entré au bureau pour établir Zero One Wanwu, et Volcano Engine a lancé le "Volcano Ark". En quelques mois à peine, diverses entreprises ont eu tendance à développer et à publier des applications modèles à grande échelle.
Il existe plus de 80 modèles nationaux à grande échelle avec une échelle de paramètres de 1 milliard ou plus, et leur nombre continue d'augmenter rapidement. L'ambiance de préparation d'une guerre commerciale autour des gros modèles est déjà extrêmement forte.
Qu'il s'agisse d'une grande entreprise géante ou d'une petite entreprise géante, ils ont tous besoin de telles actions pour montrer leur sensibilité à la technologie de pointe et leur accumulation à long terme. En lançant l'application plus tôt, vous pouvez tester les précieuses données sur l'interaction entre le grand modèle et l'utilisateur un jour plus tôt, et "accumuler beaucoup de nourriture, et l'image est reine" lors du futur concours.
La clé du grand modèle réside dans les éléments de champ de l'IA - algorithmes, puissance de calcul, données et scénarios/applications. Les algorithmes représentent des stratégies, la puissance de calcul détermine la limite supérieure et fixe un seuil, et les données égalent les rations militaires symbolisent également la distinction entre le bien et le mal. En plus des trois éléments, la scène/application représente la direction d'envoi des troupes.
La « guerre des cent modèles » est sur le point d'éclater. Une entreprise géante avec tous les éléments évoluera-t-elle vers une involution infinie des capacités technologiques ? Les petits géants de la voie verticale peuvent-ils consolider leur position de leader à l'aide de grands modèles ? Parmi les nouveaux joueurs obtenant des billets, qui pourrait être un concurrent sérieux pour la domination de l'industrie ?
** Le modèle général à grande échelle "force du bassin versant" n'est pas encore apparu **
Les acteurs des grands modèles se répartissent principalement en trois catégories : l'une est l'Internet (Baidu, Ali, Tencent, etc.) et les géants de l'industrie (China Telecom et China Unicom, etc.) les entreprises intelligentes (SenseTime, Yuncong, Guangyuewai, etc.) , et la dernière catégorie sont les instituts de recherche scientifique représentés par le Laboratoire d'intelligence artificielle de Shanghai, l'Université de Fudan, l'Institut de technologie de Harbin, etc.
Selon les données publiques, au début du mois de juillet 2023, il existe plus de 80 modèles à grande échelle avec des paramètres supérieurs à 1 milliard dans mon pays, et ils continuent d'augmenter rapidement. Plus les modèles sont grands avec ce nombre de paramètres, plus le seuil de concurrence sera élevé.
La plupart des modèles à grande échelle qui ont été publiés jusqu'à présent sont des modèles à grande échelle à usage général.Il y a deux raisons principales: l'une est que la concurrence des modèles à grande échelle n'est toujours pas claire et que le niveau purement technique ne s'est pas élargi le fossé des générations, et les participants de l'industrie ont la possibilité de dominer le monde; Le modèle à grande échelle axé sur les applications pour le public n'est pas encore apparu, et il y a un manque d'orientation claire. Avant le "moment Chat GPT" du modèle domestique à grande échelle apparaît, c'est à la fois un choix actif et passif de rejoindre le modèle à grande échelle à usage général.
De plus, il est très probable qu'un nouveau géant émergera du domaine des grands modèles.
Zhou Hongyi estime que les grands modèles doivent être "universels", et que seule une utilisation générale peut entrer dans des milliers de foyers, autonomiser des centaines d'industries et mener la nouvelle révolution de l'intelligence artificielle.
Ce qui reste inachevé, c'est l'investissement et la coopération nécessaires pour devenir le leader de la nouvelle révolution. Que le grand modèle soit un marché océan bleu ou océan rouge, il doit y avoir une structure écologique dans laquelle les gros poissons mènent et les petits poissons coopèrent, mais la ligne de partage entre gros poissons et petits poissons n'a pas encore émergé.
À en juger par la situation actuelle, un grand modèle avec une échelle de 1 milliard de paramètres peut être considéré comme le seuil d'entrée, et un grand modèle avec une échelle de 10 milliards de paramètres peut être considéré comme ayant la capacité de rivaliser dans le monde, mais même un grand modèle avec une échelle de 100 milliards de paramètres est loin d'être le meilleur.
La quantité de paramètres n'est pas une force écrasante qui détermine la situation sur le champ de bataille. Des facteurs tels que les capacités de planification des ressources, l'accumulation d'expérience à long terme et les investissements importants dans la recherche scientifique sont tous des différences fondamentales de longue date dans la concurrence des modèles à grande échelle.
Pour se comparer à Open AI, il faut voir que derrière l'explosion de Chat GPT se cache le support complet de Microsoft en matière de données, de puissance de calcul et de fonds massifs, de sorte qu'il a accumulé beaucoup d'argent à l'avenir.
Les modèles à grande échelle sont des industries d'investissement à long terme, ce qui signifie simplement "brûler de l'argent". L'accumulation de puissance de calcul, d'algorithmes et de données ne se fait pas du jour au lendemain. Une fois le modèle publié, il nécessite des entraînements répétés et des itérations agiles, pour finalement évoluer vers un "corps mature".
Dans l'environnement réel, l'acteur du grand modèle est-il motivé par la technologie ou le profit ? Open AI est la société de modélisme à grande échelle la plus connue au monde et même avec le produit explosif Chat GPT, sa capacité de commercialisation reste préoccupante. En tant qu'entreprise technologique dont la valeur marchande approche les 30 milliards de dollars américains, elle sera au centre de la vague de l'IA en 2023. Les revenus d'Open AI sont jusqu'à présent inférieurs à 200 millions de dollars américains.
L'investissement initial n'est que le coût initial, et chaque formation ultérieure demande de l'argent réel… Combien d'entreprises peuvent accepter le pitoyable retour sur investissement de la compétition de maquettes à grande échelle ? Le succès de Chat GPT prouve que le grand modèle a été ouvert sur le chemin du produit, mais cela ne signifie pas un grand succès au niveau commercial.
Au moins en termes de ratio input-output, les géants de l'Internet ont un avantage relatif plus important : ils ont suffisamment de motivation et de ressources pour supporter les pertes stratégiques au début, tout comme Alibaba Cloud à l'époque.
Quant à savoir combien de temps il faudra pour brûler de l'argent et quand voir un retour sur investissement gratifiant, les grandes entreprises ne le savent pas, pas plus que les VC des start-up. C'est un pari qui peut quitter le jeu à tout moment, et les jetons s'élèvent à des milliards de dollars.
Pour les acteurs du mannequinat à grande échelle qui "chacun a ses avantages", ils devraient d'abord explorer la couche applicative et ouvrir le test au plus vite. Qui pourra accumuler des données d'interaction plus précieuses sera le point de rupture de la prochaine compétition.
Besoins verticaux et difficultés verticales
La concurrence pour les modèles généraux à grande échelle concerne davantage la concurrence pour le droit de formuler des infrastructures, tandis que le modèle vertical à grande échelle s'appuie sur des modèles open source à grande échelle ou des interfaces API dans des scénarios spécifiques pour former une compétitivité différenciée dans des industries segmentées, se concentrant davantage sur l'application de scénarios.
Sur le champ de bataille des modèles à grande échelle à usage général, au fil du temps, certains acteurs faibles prendront progressivement du retard, et il n'y aura finalement que quelques modèles à grande échelle à usage général, qui joueront le rôle d'infrastructure. . Dans le même temps, ces grands modèles sont toujours confrontés au problème d'homogénéité, et la couche application dépend toujours des grands modèles verticaux.
Le grand modèle à usage général ressemble à une collection de plusieurs grands modèles verticaux. Plus il y a de scénarios d'entraînement, plus la "généralité" du grand modèle à usage général est forte.
En tant que première entreprise en Chine à lancer des produits de type Chat GPT, Baidu a un besoin urgent de couches d'applications verticales de modèles à grande échelle. Li Yanhong a déclaré: "Plus important que le nombre de grands modèles est l'application, qui est une percée dans l'application des champs verticaux. Le point clé de la nouvelle stratégie de concurrence internationale n'est pas le nombre de grands modèles, mais le nombre de natifs applications sur les grands modèles. Ces applications Dans quelle mesure l'efficacité de la production a-t-elle été améliorée."
Selon la métaphore de Li Yanhong, les grands modèles, en particulier les grands modèles à usage général, sont comme le système d'exploitation à l'ère de l'IA. Toutes les applications seront développées autour du grand modèle, au-dessus duquel se trouve la couche d'application, y compris diverses applications natives de l'IA. .
En dernière analyse, le soi-disant "universel" n'est qu'un concept relatif, et il n'existe pas de modèle à usage général qui soit complètement applicable à tous les domaines et qui ait une profondeur industrielle suffisante. En prenant Chat GPT comme exemple, ce sont encore certaines industries avec un taux de tolérance aux pannes élevé qui sont vraiment largement utilisées, même si la solution donnée par le grand modèle est fausse, l'erreur est limitée à une plage relativement restreinte. Cependant, dans des scénarios tels que l'industrie lourde, l'aérospatiale et les soins médicaux, la perte causée par une erreur est incommensurable, c'est-à-dire que Chat GPT ne peut pas répondre aux exigences verticales et professionnelles de scénarios spécifiques.
Pour tenir compte des exigences de verticalité et de professionnalisme, les données sont un défaut, et il y a moins d'industries avec une profondeur de données suffisante et un fossé stable. Il est difficile d'évaluer spécifiquement si les données de ces industries sont faciles à obtenir et si les données obtenues peuvent répondre aux exigences en constante évolution d'industries spécifiques.
Les géants de l'Internet disposent d'une grande quantité de données de réseau telles que le commerce électronique, les réseaux sociaux et la recherche, mais les types de données ne sont pas assez complets et la qualité des données n'est pas garantie. beaucoup de travaux miniers.
Récemment, dans les domaines des affaires gouvernementales, de la sécurité publique et des soins médicaux, des modèles verticaux à grande échelle sont mis en œuvre les uns après les autres. Par exemple, Yunzhisheng a auto-développé le modèle à grande échelle "montagne et mer" dans le domaine des soins médicaux intelligents, combiné à des technologies d'interaction vocale intelligente complètes telles que le traitement du signal sonore frontal, la reconnaissance d'empreinte vocale, la reconnaissance vocale et synthèse vocale, il devrait améliorer l'efficacité de la saisie du dossier médical électronique des médecins de plus de 400 %, économiser plus de 40 % du temps de consultation pour un seul patient et améliorer l'efficacité ambulatoire du médecin de plus de 66 %.
Sur la base de ses propres documents officiels, documents politiques, guides d'affaires gouvernementales et d'autres données comme les données de formation professionnelle, TRS a créé un vaste modèle d'affaires gouvernementales.
Dans le domaine financier, Hang Seng Electronics commencera à planifier et à concevoir des produits modèles financiers à grande échelle fin mars 2023. Fin juin, Hang Seng Electronics et sa filiale Hang Seng Juyuan ont lancé un nouveau produit financier d'intelligence numérique basé sur une technologie de modèle de langage étendu - l'assistant financier intelligent Photon et une nouvelle plate-forme de recherche d'investissement intelligente améliorée WarrenQ.
Tencent, un géant de l'Internet aux multiples ressources industrielles, parie sur plusieurs côtés. Fin juin, Tencent a annoncé des solutions de services MaaS couvrant 10 secteurs, dont la finance, le tourisme culturel, les affaires gouvernementales et l'éducation, avec un total de plus de 50 solutions.
Dans le même temps, les données requises par le grand modèle vertical ne se limitent souvent pas à l'industrie. Certaines entreprises peuvent nécessiter l'intégration de données d'une autre ou de plusieurs industries. La formation et l'application du modèle dépendent de la coopération intersectorielle des entreprises ou des ressources des géants de l'Internet.
**Puissance de calcul : des briques puissantes volent ? **
Lors de la ruée vers l'or dans l'ouest des États-Unis au 19ème siècle, c'était un événement probabiliste que les chercheurs d'or pouvaient réellement gagner de l'argent, alors que c'était un résultat inévitable que les vendeurs de pelles gagnaient de l'argent.
Dans la ruée vers l'or de l'IA, la situation sur le champ de bataille du grand modèle n'est toujours pas claire et les joueurs avancent toujours, mais le "vendeur de pelles" a déjà gagné. S'appuyant sur la tendance des puces IA et des grands modèles, Nvidia a creusé l'écart avec son concurrent AMD, et sa valeur marchande est entrée dans le "club du billion de dollars".
Le PDG d'Open AI, Sam Altman, a proposé une nouvelle version de la loi de Moore, c'est-à-dire que la puissance de calcul de l'IA mondiale doublera tous les 18 mois. Le maintien de ces calculs nécessite le support de puces d'entraînement à l'IA, et la part de marché de Nvidia dans ce domaine dépasse les 90 %.
Les produits de puces AI de Nvidia ont été frénétiquement récupérés par les grandes entreprises technologiques du monde entier : en mars 2023, Microsoft a annoncé qu'il avait aidé OpenAI à construire un nouveau centre de calcul avec des dizaines de milliers d'A100 ; en mai, Google a lancé un H100 avec 26 000 pièces. grappe de calcul ComputeEngineA3. De plus, selon les informations de China National Finance Securities, ByteDance a commandé plus d'un milliard de dollars américains de GPU cette année, et on estime qu'il y a 100 000 pièces d'A100 et H800 qui sont arrivées et ne sont pas arrivées. Des dizaines de milliers de puces H800 sont également utilisées dans la nouvelle version de Tencent Cloud High Performance Computing Service Center publiée par Tencent.
Le directeur financier de Nvidia, Kress, a déclaré que la demande actuelle du marché pour la puissance de calcul de l'IA a dépassé les attentes de l'entreprise pour les prochains trimestres, et qu'il y a trop de commandes à honorer.
Bien sûr, il est inutile pour nous d'envier l'argent que gagne Nvidia.
La piste GPU nationale est également en train de rattraper son retard. Il n'y a pas seulement les puces d'intelligence artificielle développées par les géants de l'Internet, telles que la puce d'intelligence artificielle Baidu Kunlun, la puce de traitement vidéo Tencent "Canghai" et la puce d'intelligence artificielle "Zixiao", etc., mais aussi la technologie Suiyuan, Tianshu Zhixin, Des sociétés émergentes telles que Moore Threads qui développent des GPU à usage général. Les GPU à usage général sont utilisés pour diverses tâches à usage général, y compris des capacités de calcul hautement parallèles et des cœurs de calcul à grande échelle. Il y a également eu de grands progrès ces dernières années , et l'écart avec les GPU hautes performances se réduit progressivement.
Wu Hequan, un académicien de l'Académie chinoise d'ingénierie, a suggéré que sous la coordination des plans nationaux de science et de technologie et industriels, une division raisonnable du travail devrait être formée pour former une puissance de calcul commune, et la plate-forme de puissance de calcul du national laboratoire devrait être ouvert pour prendre en charge divers entraînements de modèles à grande échelle. Dans le même temps, il est suggéré de former une alliance de puissance de calcul pour concentrer les GPU haut de gamme existants. Les ressources de calcul fournissent la puissance de calcul requise pour l'entraînement de données de grands modèles.
Outre les GPU hautes performances, les plates-formes informatiques à moindre coût sont également considérées comme de nouvelles opportunités de marché. Récemment, Jiuzhang Yunji a révélé qu'il continuerait à coopérer avec les fabricants de cloud appartenant à l'État, et inclurait un grand nombre de centres de calcul intelligents sur le marché en tant que partenaires, et fournirait aux clients une plate-forme de recherche et développement de modèles d'IA intégrant des logiciels et du matériel. le coût des clients sera lié à la puissance de calcul.
La puissance de calcul est à la base du développement des grands modèles, c'est une condition nécessaire mais pas suffisante, le rôle maximum que peut jouer la puissance de calcul dépend encore du sens d'utilisation. Ce n'est que lorsque l'innovation d'algorithmes, la construction de ressources de données et l'itération du cadre de formation vont de pair qu'il est possible de créer des "briques volantes puissantes".
Politique : orientation et réglementation aux moments critiques
La période de l'explosion de l'IA coïncide avec le moment critique de la gouvernance des algorithmes et du dépôt des algorithmes dans notre pays.
Dès 2021, les « Guiding Opinions on Strengthening the Comprehensive Governance of Internet Information Service Algorithms » plaçaient la gestion des dépôts d'algorithmes comme un élément important de l'amélioration du système de supervision. Le Règlement de gestion stipule ou mentionne clairement que « les prestataires de services de recommandation d'algorithmes les attributs d'opinion publique ou les capacités de mobilisation sociale doivent effectuer des procédures de classement. »
En avril 2023, l'Administration du cyberespace de Chine a rédigé les "Mesures administratives pour les services d'intelligence artificielle générative (projet pour commentaires)" pour consultation publique. En juin, le « Plan de travail législatif 2023 du Conseil d'État » publié par le Conseil d'État a montré que le projet de loi sur l'intelligence artificielle était prêt à être soumis au Comité permanent de l'Assemblée populaire nationale pour délibération.
Les « Mesures de gestion des services d'intelligence artificielle générative (projet pour commentaires) » mentionnaient qu'avant d'utiliser des produits d'intelligence artificielle générative pour fournir des services au public, ils devaient être signalés au réseau d'État conformément au « Règlement sur l'évaluation de la sécurité des informations sur Internet Services avec des attributs d'opinion publique ou des capacités de mobilisation sociale". Le service de l'information doit demander une évaluation de la sécurité et effectuer les procédures de dépôt, de modification et d'annulation de l'algorithme conformément au "Règlement de gestion des recommandations d'algorithmes de service d'information sur Internet".
C'est aussi l'une des raisons pour lesquelles il n'y a pas de produits modèles à grande échelle à la disposition du public.
Le professeur Chen Bing, vice-doyen de la faculté de droit de l'Université de Nankai et chercheur spécial à l'Institut de recherche sur la stratégie de développement de l'intelligence artificielle de nouvelle génération en Chine, estime que la pré-réglementation ne nuira pas nécessairement à l'innovation technologique, mais il convient de noter qu'en raison de examen, cela augmentera le nombre d'entreprises dans une certaine mesure. Si la portée de l'examen préalable n'est pas correctement définie, cela peut inhiber l'efficacité de la recherche et du développement et de la formation des produits d'IA générative, et objectivement conduire à un ralentissement du développement de IA générative.
Étant donné que les risques de l'intelligence artificielle ne peuvent pas être parfaitement estimés à l'avance et que la supervision après coup peut causer d'énormes dégâts, mon pays adopte actuellement une supervision intégrale du développement de l'intelligence artificielle.
Dans le cadre de la réglementation de l'ensemble du processus, le coût de conformité des joueurs de modèles à grande échelle augmentera sans aucun doute, et le système de classement des dossiers exhorte également les joueurs du jeu à donner la priorité à la recherche de classement des dossiers afin de promouvoir les produits sur le marché plus tôt. , accélérant objectivement la vitesse des grosses vagues. L'amélioration progressive des lois et des réglementations s'accompagne d'un processus de remaniement de l'industrie et de l'abandon des faibles, ce qui peut également amener le moment de dissiper les nuages au soleil plus tôt.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Quand naîtra le nouveau géant ? Le grand modèle attend "un tournant"
Source| Zero One Finance
Auteur| Shen Zhuoyan
Depuis 2023, le mot le plus en vogue dans le cercle technologique est ChatGPT et la technologie de modèle à grande échelle qui le sous-tend.
Auparavant, il y avait Baidu Wenxin Yiyan, Alibaba Cloud Tongyi Qianwen, Huawei Pangu, HKUST Xunfei Xinghuo, etc. Récemment, Li Kaifu est entré au bureau pour établir Zero One Wanwu, et Volcano Engine a lancé le "Volcano Ark". En quelques mois à peine, diverses entreprises ont eu tendance à développer et à publier des applications modèles à grande échelle.
Il existe plus de 80 modèles nationaux à grande échelle avec une échelle de paramètres de 1 milliard ou plus, et leur nombre continue d'augmenter rapidement. L'ambiance de préparation d'une guerre commerciale autour des gros modèles est déjà extrêmement forte.
Qu'il s'agisse d'une grande entreprise géante ou d'une petite entreprise géante, ils ont tous besoin de telles actions pour montrer leur sensibilité à la technologie de pointe et leur accumulation à long terme. En lançant l'application plus tôt, vous pouvez tester les précieuses données sur l'interaction entre le grand modèle et l'utilisateur un jour plus tôt, et "accumuler beaucoup de nourriture, et l'image est reine" lors du futur concours.
La clé du grand modèle réside dans les éléments de champ de l'IA - algorithmes, puissance de calcul, données et scénarios/applications. Les algorithmes représentent des stratégies, la puissance de calcul détermine la limite supérieure et fixe un seuil, et les données égalent les rations militaires symbolisent également la distinction entre le bien et le mal. En plus des trois éléments, la scène/application représente la direction d'envoi des troupes.
La « guerre des cent modèles » est sur le point d'éclater. Une entreprise géante avec tous les éléments évoluera-t-elle vers une involution infinie des capacités technologiques ? Les petits géants de la voie verticale peuvent-ils consolider leur position de leader à l'aide de grands modèles ? Parmi les nouveaux joueurs obtenant des billets, qui pourrait être un concurrent sérieux pour la domination de l'industrie ?
** Le modèle général à grande échelle "force du bassin versant" n'est pas encore apparu **
Les acteurs des grands modèles se répartissent principalement en trois catégories : l'une est l'Internet (Baidu, Ali, Tencent, etc.) et les géants de l'industrie (China Telecom et China Unicom, etc.) les entreprises intelligentes (SenseTime, Yuncong, Guangyuewai, etc.) , et la dernière catégorie sont les instituts de recherche scientifique représentés par le Laboratoire d'intelligence artificielle de Shanghai, l'Université de Fudan, l'Institut de technologie de Harbin, etc.
Selon les données publiques, au début du mois de juillet 2023, il existe plus de 80 modèles à grande échelle avec des paramètres supérieurs à 1 milliard dans mon pays, et ils continuent d'augmenter rapidement. Plus les modèles sont grands avec ce nombre de paramètres, plus le seuil de concurrence sera élevé.
La plupart des modèles à grande échelle qui ont été publiés jusqu'à présent sont des modèles à grande échelle à usage général.Il y a deux raisons principales: l'une est que la concurrence des modèles à grande échelle n'est toujours pas claire et que le niveau purement technique ne s'est pas élargi le fossé des générations, et les participants de l'industrie ont la possibilité de dominer le monde; Le modèle à grande échelle axé sur les applications pour le public n'est pas encore apparu, et il y a un manque d'orientation claire. Avant le "moment Chat GPT" du modèle domestique à grande échelle apparaît, c'est à la fois un choix actif et passif de rejoindre le modèle à grande échelle à usage général.
De plus, il est très probable qu'un nouveau géant émergera du domaine des grands modèles.
Zhou Hongyi estime que les grands modèles doivent être "universels", et que seule une utilisation générale peut entrer dans des milliers de foyers, autonomiser des centaines d'industries et mener la nouvelle révolution de l'intelligence artificielle.
Ce qui reste inachevé, c'est l'investissement et la coopération nécessaires pour devenir le leader de la nouvelle révolution. Que le grand modèle soit un marché océan bleu ou océan rouge, il doit y avoir une structure écologique dans laquelle les gros poissons mènent et les petits poissons coopèrent, mais la ligne de partage entre gros poissons et petits poissons n'a pas encore émergé.
À en juger par la situation actuelle, un grand modèle avec une échelle de 1 milliard de paramètres peut être considéré comme le seuil d'entrée, et un grand modèle avec une échelle de 10 milliards de paramètres peut être considéré comme ayant la capacité de rivaliser dans le monde, mais même un grand modèle avec une échelle de 100 milliards de paramètres est loin d'être le meilleur.
La quantité de paramètres n'est pas une force écrasante qui détermine la situation sur le champ de bataille. Des facteurs tels que les capacités de planification des ressources, l'accumulation d'expérience à long terme et les investissements importants dans la recherche scientifique sont tous des différences fondamentales de longue date dans la concurrence des modèles à grande échelle.
Pour se comparer à Open AI, il faut voir que derrière l'explosion de Chat GPT se cache le support complet de Microsoft en matière de données, de puissance de calcul et de fonds massifs, de sorte qu'il a accumulé beaucoup d'argent à l'avenir.
Les modèles à grande échelle sont des industries d'investissement à long terme, ce qui signifie simplement "brûler de l'argent". L'accumulation de puissance de calcul, d'algorithmes et de données ne se fait pas du jour au lendemain. Une fois le modèle publié, il nécessite des entraînements répétés et des itérations agiles, pour finalement évoluer vers un "corps mature".
Dans l'environnement réel, l'acteur du grand modèle est-il motivé par la technologie ou le profit ? Open AI est la société de modélisme à grande échelle la plus connue au monde et même avec le produit explosif Chat GPT, sa capacité de commercialisation reste préoccupante. En tant qu'entreprise technologique dont la valeur marchande approche les 30 milliards de dollars américains, elle sera au centre de la vague de l'IA en 2023. Les revenus d'Open AI sont jusqu'à présent inférieurs à 200 millions de dollars américains.
L'investissement initial n'est que le coût initial, et chaque formation ultérieure demande de l'argent réel… Combien d'entreprises peuvent accepter le pitoyable retour sur investissement de la compétition de maquettes à grande échelle ? Le succès de Chat GPT prouve que le grand modèle a été ouvert sur le chemin du produit, mais cela ne signifie pas un grand succès au niveau commercial.
Au moins en termes de ratio input-output, les géants de l'Internet ont un avantage relatif plus important : ils ont suffisamment de motivation et de ressources pour supporter les pertes stratégiques au début, tout comme Alibaba Cloud à l'époque.
Quant à savoir combien de temps il faudra pour brûler de l'argent et quand voir un retour sur investissement gratifiant, les grandes entreprises ne le savent pas, pas plus que les VC des start-up. C'est un pari qui peut quitter le jeu à tout moment, et les jetons s'élèvent à des milliards de dollars.
Pour les acteurs du mannequinat à grande échelle qui "chacun a ses avantages", ils devraient d'abord explorer la couche applicative et ouvrir le test au plus vite. Qui pourra accumuler des données d'interaction plus précieuses sera le point de rupture de la prochaine compétition.
Besoins verticaux et difficultés verticales
La concurrence pour les modèles généraux à grande échelle concerne davantage la concurrence pour le droit de formuler des infrastructures, tandis que le modèle vertical à grande échelle s'appuie sur des modèles open source à grande échelle ou des interfaces API dans des scénarios spécifiques pour former une compétitivité différenciée dans des industries segmentées, se concentrant davantage sur l'application de scénarios.
Sur le champ de bataille des modèles à grande échelle à usage général, au fil du temps, certains acteurs faibles prendront progressivement du retard, et il n'y aura finalement que quelques modèles à grande échelle à usage général, qui joueront le rôle d'infrastructure. . Dans le même temps, ces grands modèles sont toujours confrontés au problème d'homogénéité, et la couche application dépend toujours des grands modèles verticaux.
Le grand modèle à usage général ressemble à une collection de plusieurs grands modèles verticaux. Plus il y a de scénarios d'entraînement, plus la "généralité" du grand modèle à usage général est forte.
En tant que première entreprise en Chine à lancer des produits de type Chat GPT, Baidu a un besoin urgent de couches d'applications verticales de modèles à grande échelle. Li Yanhong a déclaré: "Plus important que le nombre de grands modèles est l'application, qui est une percée dans l'application des champs verticaux. Le point clé de la nouvelle stratégie de concurrence internationale n'est pas le nombre de grands modèles, mais le nombre de natifs applications sur les grands modèles. Ces applications Dans quelle mesure l'efficacité de la production a-t-elle été améliorée."
Selon la métaphore de Li Yanhong, les grands modèles, en particulier les grands modèles à usage général, sont comme le système d'exploitation à l'ère de l'IA. Toutes les applications seront développées autour du grand modèle, au-dessus duquel se trouve la couche d'application, y compris diverses applications natives de l'IA. .
En dernière analyse, le soi-disant "universel" n'est qu'un concept relatif, et il n'existe pas de modèle à usage général qui soit complètement applicable à tous les domaines et qui ait une profondeur industrielle suffisante. En prenant Chat GPT comme exemple, ce sont encore certaines industries avec un taux de tolérance aux pannes élevé qui sont vraiment largement utilisées, même si la solution donnée par le grand modèle est fausse, l'erreur est limitée à une plage relativement restreinte. Cependant, dans des scénarios tels que l'industrie lourde, l'aérospatiale et les soins médicaux, la perte causée par une erreur est incommensurable, c'est-à-dire que Chat GPT ne peut pas répondre aux exigences verticales et professionnelles de scénarios spécifiques.
Pour tenir compte des exigences de verticalité et de professionnalisme, les données sont un défaut, et il y a moins d'industries avec une profondeur de données suffisante et un fossé stable. Il est difficile d'évaluer spécifiquement si les données de ces industries sont faciles à obtenir et si les données obtenues peuvent répondre aux exigences en constante évolution d'industries spécifiques.
Les géants de l'Internet disposent d'une grande quantité de données de réseau telles que le commerce électronique, les réseaux sociaux et la recherche, mais les types de données ne sont pas assez complets et la qualité des données n'est pas garantie. beaucoup de travaux miniers.
Récemment, dans les domaines des affaires gouvernementales, de la sécurité publique et des soins médicaux, des modèles verticaux à grande échelle sont mis en œuvre les uns après les autres. Par exemple, Yunzhisheng a auto-développé le modèle à grande échelle "montagne et mer" dans le domaine des soins médicaux intelligents, combiné à des technologies d'interaction vocale intelligente complètes telles que le traitement du signal sonore frontal, la reconnaissance d'empreinte vocale, la reconnaissance vocale et synthèse vocale, il devrait améliorer l'efficacité de la saisie du dossier médical électronique des médecins de plus de 400 %, économiser plus de 40 % du temps de consultation pour un seul patient et améliorer l'efficacité ambulatoire du médecin de plus de 66 %.
Sur la base de ses propres documents officiels, documents politiques, guides d'affaires gouvernementales et d'autres données comme les données de formation professionnelle, TRS a créé un vaste modèle d'affaires gouvernementales.
Dans le domaine financier, Hang Seng Electronics commencera à planifier et à concevoir des produits modèles financiers à grande échelle fin mars 2023. Fin juin, Hang Seng Electronics et sa filiale Hang Seng Juyuan ont lancé un nouveau produit financier d'intelligence numérique basé sur une technologie de modèle de langage étendu - l'assistant financier intelligent Photon et une nouvelle plate-forme de recherche d'investissement intelligente améliorée WarrenQ.
Tencent, un géant de l'Internet aux multiples ressources industrielles, parie sur plusieurs côtés. Fin juin, Tencent a annoncé des solutions de services MaaS couvrant 10 secteurs, dont la finance, le tourisme culturel, les affaires gouvernementales et l'éducation, avec un total de plus de 50 solutions.
Dans le même temps, les données requises par le grand modèle vertical ne se limitent souvent pas à l'industrie. Certaines entreprises peuvent nécessiter l'intégration de données d'une autre ou de plusieurs industries. La formation et l'application du modèle dépendent de la coopération intersectorielle des entreprises ou des ressources des géants de l'Internet.
**Puissance de calcul : des briques puissantes volent ? **
Lors de la ruée vers l'or dans l'ouest des États-Unis au 19ème siècle, c'était un événement probabiliste que les chercheurs d'or pouvaient réellement gagner de l'argent, alors que c'était un résultat inévitable que les vendeurs de pelles gagnaient de l'argent.
Dans la ruée vers l'or de l'IA, la situation sur le champ de bataille du grand modèle n'est toujours pas claire et les joueurs avancent toujours, mais le "vendeur de pelles" a déjà gagné. S'appuyant sur la tendance des puces IA et des grands modèles, Nvidia a creusé l'écart avec son concurrent AMD, et sa valeur marchande est entrée dans le "club du billion de dollars".
Le PDG d'Open AI, Sam Altman, a proposé une nouvelle version de la loi de Moore, c'est-à-dire que la puissance de calcul de l'IA mondiale doublera tous les 18 mois. Le maintien de ces calculs nécessite le support de puces d'entraînement à l'IA, et la part de marché de Nvidia dans ce domaine dépasse les 90 %.
Les produits de puces AI de Nvidia ont été frénétiquement récupérés par les grandes entreprises technologiques du monde entier : en mars 2023, Microsoft a annoncé qu'il avait aidé OpenAI à construire un nouveau centre de calcul avec des dizaines de milliers d'A100 ; en mai, Google a lancé un H100 avec 26 000 pièces. grappe de calcul ComputeEngineA3. De plus, selon les informations de China National Finance Securities, ByteDance a commandé plus d'un milliard de dollars américains de GPU cette année, et on estime qu'il y a 100 000 pièces d'A100 et H800 qui sont arrivées et ne sont pas arrivées. Des dizaines de milliers de puces H800 sont également utilisées dans la nouvelle version de Tencent Cloud High Performance Computing Service Center publiée par Tencent.
Le directeur financier de Nvidia, Kress, a déclaré que la demande actuelle du marché pour la puissance de calcul de l'IA a dépassé les attentes de l'entreprise pour les prochains trimestres, et qu'il y a trop de commandes à honorer.
Bien sûr, il est inutile pour nous d'envier l'argent que gagne Nvidia.
La piste GPU nationale est également en train de rattraper son retard. Il n'y a pas seulement les puces d'intelligence artificielle développées par les géants de l'Internet, telles que la puce d'intelligence artificielle Baidu Kunlun, la puce de traitement vidéo Tencent "Canghai" et la puce d'intelligence artificielle "Zixiao", etc., mais aussi la technologie Suiyuan, Tianshu Zhixin, Des sociétés émergentes telles que Moore Threads qui développent des GPU à usage général. Les GPU à usage général sont utilisés pour diverses tâches à usage général, y compris des capacités de calcul hautement parallèles et des cœurs de calcul à grande échelle. Il y a également eu de grands progrès ces dernières années , et l'écart avec les GPU hautes performances se réduit progressivement.
Wu Hequan, un académicien de l'Académie chinoise d'ingénierie, a suggéré que sous la coordination des plans nationaux de science et de technologie et industriels, une division raisonnable du travail devrait être formée pour former une puissance de calcul commune, et la plate-forme de puissance de calcul du national laboratoire devrait être ouvert pour prendre en charge divers entraînements de modèles à grande échelle. Dans le même temps, il est suggéré de former une alliance de puissance de calcul pour concentrer les GPU haut de gamme existants. Les ressources de calcul fournissent la puissance de calcul requise pour l'entraînement de données de grands modèles.
Outre les GPU hautes performances, les plates-formes informatiques à moindre coût sont également considérées comme de nouvelles opportunités de marché. Récemment, Jiuzhang Yunji a révélé qu'il continuerait à coopérer avec les fabricants de cloud appartenant à l'État, et inclurait un grand nombre de centres de calcul intelligents sur le marché en tant que partenaires, et fournirait aux clients une plate-forme de recherche et développement de modèles d'IA intégrant des logiciels et du matériel. le coût des clients sera lié à la puissance de calcul.
La puissance de calcul est à la base du développement des grands modèles, c'est une condition nécessaire mais pas suffisante, le rôle maximum que peut jouer la puissance de calcul dépend encore du sens d'utilisation. Ce n'est que lorsque l'innovation d'algorithmes, la construction de ressources de données et l'itération du cadre de formation vont de pair qu'il est possible de créer des "briques volantes puissantes".
Politique : orientation et réglementation aux moments critiques
La période de l'explosion de l'IA coïncide avec le moment critique de la gouvernance des algorithmes et du dépôt des algorithmes dans notre pays.
Dès 2021, les « Guiding Opinions on Strengthening the Comprehensive Governance of Internet Information Service Algorithms » plaçaient la gestion des dépôts d'algorithmes comme un élément important de l'amélioration du système de supervision. Le Règlement de gestion stipule ou mentionne clairement que « les prestataires de services de recommandation d'algorithmes les attributs d'opinion publique ou les capacités de mobilisation sociale doivent effectuer des procédures de classement. »
En avril 2023, l'Administration du cyberespace de Chine a rédigé les "Mesures administratives pour les services d'intelligence artificielle générative (projet pour commentaires)" pour consultation publique. En juin, le « Plan de travail législatif 2023 du Conseil d'État » publié par le Conseil d'État a montré que le projet de loi sur l'intelligence artificielle était prêt à être soumis au Comité permanent de l'Assemblée populaire nationale pour délibération.
Les « Mesures de gestion des services d'intelligence artificielle générative (projet pour commentaires) » mentionnaient qu'avant d'utiliser des produits d'intelligence artificielle générative pour fournir des services au public, ils devaient être signalés au réseau d'État conformément au « Règlement sur l'évaluation de la sécurité des informations sur Internet Services avec des attributs d'opinion publique ou des capacités de mobilisation sociale". Le service de l'information doit demander une évaluation de la sécurité et effectuer les procédures de dépôt, de modification et d'annulation de l'algorithme conformément au "Règlement de gestion des recommandations d'algorithmes de service d'information sur Internet".
C'est aussi l'une des raisons pour lesquelles il n'y a pas de produits modèles à grande échelle à la disposition du public.
Le professeur Chen Bing, vice-doyen de la faculté de droit de l'Université de Nankai et chercheur spécial à l'Institut de recherche sur la stratégie de développement de l'intelligence artificielle de nouvelle génération en Chine, estime que la pré-réglementation ne nuira pas nécessairement à l'innovation technologique, mais il convient de noter qu'en raison de examen, cela augmentera le nombre d'entreprises dans une certaine mesure. Si la portée de l'examen préalable n'est pas correctement définie, cela peut inhiber l'efficacité de la recherche et du développement et de la formation des produits d'IA générative, et objectivement conduire à un ralentissement du développement de IA générative.
Étant donné que les risques de l'intelligence artificielle ne peuvent pas être parfaitement estimés à l'avance et que la supervision après coup peut causer d'énormes dégâts, mon pays adopte actuellement une supervision intégrale du développement de l'intelligence artificielle.
Dans le cadre de la réglementation de l'ensemble du processus, le coût de conformité des joueurs de modèles à grande échelle augmentera sans aucun doute, et le système de classement des dossiers exhorte également les joueurs du jeu à donner la priorité à la recherche de classement des dossiers afin de promouvoir les produits sur le marché plus tôt. , accélérant objectivement la vitesse des grosses vagues. L'amélioration progressive des lois et des réglementations s'accompagne d'un processus de remaniement de l'industrie et de l'abandon des faibles, ce qui peut également amener le moment de dissiper les nuages au soleil plus tôt.