Révolution des données AI : les données off-chain deviennent la clé pour surmonter les obstacles de l'intelligence artificielle.

La prochaine révolution de l'industrie de l'IA : de la compétition de puissance de calcul à l'infrastructure de données

Avec l'échelle des paramètres des modèles d'intelligence artificielle dépassant les milliers de milliards, la puissance de calcul étant mesurée en centaines de billions d'opérations par seconde, un goulot d'étranglement central, souvent négligé, émerge : les données. La prochaine révolution de l'industrie de l'IA ne sera plus alimentée par l'architecture des modèles ou la puissance de calcul des puces, mais dépendra de la manière dont nous pouvons transformer des données fragmentées sur le comportement humain en capital vérifiable, structuré et prêt pour l'IA. Cette perception révèle non seulement les contradictions structurelles du développement actuel de l'IA, mais esquisse également un tout nouveau paysage de "l'ère de DataFi" - dans cette ère, les données ne sont plus un sous-produit de la technologie, mais une composante de production essentielle, mesurable, échangeable et valorisable, tout comme l'électricité et la puissance de calcul.

De la compétition de puissance de calcul à la famine de données : les contradictions structurelles de l'industrie de l'IA

Le développement de l'IA a été longtemps piloté par le double noyau "modèle-Puissance de calcul". Depuis la révolution de l'apprentissage profond, les paramètres des modèles sont passés de millions à des trillions, et la demande en puissance de calcul a augmenté de manière exponentielle. Selon les données, le coût de formation d'un modèle de langage avancé a déjà dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de clusters GPU. Cependant, alors que l'industrie concentre son attention sur "des modèles plus grands" et "des puces plus rapides", une crise latente du côté de l'offre des données est en train de se profiler.

Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons l'exemple des données textuelles, la quantité totale de texte de haute qualité accessible sur Internet (livres, articles, nouvelles) est d'environ 10^12 mots, tandis qu'un modèle de 100 milliards de paramètres nécessite environ 10^13 mots de données pour son entraînement - cela signifie que le pool de données actuel ne peut soutenir l'entraînement que de 10 modèles de taille équivalente. Plus préoccupant encore, la part de données répétées et de contenu de faible qualité dépasse 60 %, ce qui réduit davantage l'offre de données efficaces. Lorsque les modèles commencent à "ingérer" les données générées par eux-mêmes (comme les articles écrits par l'IA, les images générées par l'IA), la dégradation des performances du modèle due à la "pollution des données" est devenue une préoccupation dans l'industrie.

La source de cette contradiction réside dans le fait que l'industrie de l'IA a longtemps considéré les données comme une "ressource gratuite", plutôt que comme un "actif stratégique" nécessitant un soin minutieux. Les modèles et la Puissance de calcul ont formé un système de marché mature - la Puissance de calcul est évaluée en FLOPS sur des plateformes cloud, et les modèles facturent par le nombre d'appels via des interfaces API - mais la production, le nettoyage, la validation et le commerce des données demeurent à l'ère de la "sauvagerie". La prochaine décennie de l'IA sera celle des "infrastructures de données", et les données on-chain des réseaux cryptographiques sont la clé pour déverrouiller ce dilemme.

Données en chaîne : la "base de données sur le comportement humain" dont l'IA a le plus besoin

Dans le contexte de la famine des données, les données on-chain des réseaux de cryptomonnaie montrent une valeur inestimable. Comparées aux données de l'internet traditionnel (comme les publications sur les réseaux sociaux ou les commentaires d'e-commerce), les données on-chain possèdent intrinsèquement une authenticité d'"alignement des incitations" — chaque transaction, chaque interaction de contrat, chaque comportement d'adresse de portefeuille est directement lié à un capital réel et est immuable. Cela peut être défini comme "les données sur le comportement d'alignement des incitations humaines les plus concentrées sur Internet", concrétisé selon trois dimensions :

signal d'intention" du monde réel

Les données enregistrées sur la chaîne ne sont pas des commentaires émotionnels ou des clics aléatoires, mais des comportements décisionnels votés avec de l'argent réel. Par exemple, le fait qu'un portefeuille échange des actifs sur un certain DEX, qu'il mette en garantie des prêts sur une plateforme de prêt, ou qu'il enregistre un nom de domaine sur un service de noms de domaine, reflète directement le jugement de l'utilisateur sur la valeur du projet, sa propension au risque et sa stratégie de répartition des fonds. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour former la capacité décisionnelle des IA (comme les prévisions financières, l'analyse de marché). En revanche, les données de l'Internet traditionnel sont remplies de "bruit" - comme les faux likes sur les réseaux sociaux et les commentaires d'achats fictifs sur les plateformes de commerce électronique, ces données ne peuvent pas seulement pas former des modèles d'IA fiables, mais elles peuvent également induire en erreur le jugement des modèles.

Chaîne de comportement traçable

La transparence de la blockchain permet de retracer complètement le comportement des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles avec lesquels elle a interagi et les variations de ses actifs constituent une "chaîne de comportement" cohérente. Par exemple, en analysant les opérations d'une adresse dans les protocoles DeFi depuis 2020, l'IA peut précisément identifier si elle est un "investisseur à long terme", un "trader d'arbitrage" ou un "fournisseur de liquidité", et construire un profil utilisateur en conséquence. Ces données comportementales structurées sont justement l'échantillon de "raisonnement humain" le plus rare pour les modèles d'IA actuels.

accès "sans permission" à l'écosystème ouvert

Contrairement à la nature fermée des données des entreprises traditionnelles (comme les relevés bancaires ou les données des utilisateurs de commerce électronique), les données sur la blockchain sont ouvertes et sans autorisation. Tout développeur peut accéder aux données brutes via un explorateur de blockchain ou une API de données, ce qui fournit une source de données "sans barrières" pour l'entraînement des modèles d'IA. Cependant, cette ouverture entraîne également des défis : les données sur la blockchain existent sous forme de "journaux d'événements" (comme les événements de transfert ERC-20 d'Ethereum ou les événements de swap des échanges), ce qui en fait des "signaux bruts" non structurés, nécessitant un nettoyage, une normalisation et un lien avant de pouvoir être utilisés par les modèles d'IA. Actuellement, le "taux de conversion structurelle" des données sur la blockchain est inférieur à 5 %, et un grand nombre de signaux de haute valeur sont enfouis dans des milliards d'événements fragmentés.

Hyperdata Network : le "système d'exploitation" des données on-chain

Pour résoudre le problème de la fragmentation des données sur la chaîne, l'industrie a proposé le Hyperdata Network - un "système d'exploitation intelligent sur la chaîne" conçu spécifiquement pour l'IA. Son objectif principal est de transformer les signaux dispersés sur la chaîne en données prêtes pour l'IA, structurées, vérifiables et en temps réel.

Manuscrit : Normes de données ouvertes, permettant à l'IA de "comprendre" le monde de la chaîne.

L'un des principaux points de douleur des données on-chain est la "confusion des formats" - les formats des journaux d'événements varient d'une blockchain à l'autre (comme Ethereum, Solana, Avalanche), et la structure des données de différentes versions d'un même protocole peut également changer. Manuscript, en tant que norme de schéma de données ouverte, unifie la définition et la description des données on-chain. Par exemple, il standardise le "comportement de mise en jeu des utilisateurs" en une donnée structurée contenant des champs tels que staker_address, protocol_id, amount, timestamp, reward_token, garantissant que les modèles d'IA n'ont pas besoin de s'adapter aux formats de données de différentes chaînes ou protocoles, mais peuvent directement "comprendre" la logique commerciale derrière les données.

Cette valeur standardisée réside dans la réduction des coûts de friction dans le développement de l'IA. Supposons qu'une équipe doive entraîner un "modèle de prédiction du comportement des utilisateurs DeFi". De manière traditionnelle, il est nécessaire de se connecter séparément aux API de plusieurs chaînes telles qu'Ethereum et Polygon, en écrivant différents scripts d'analyse ; alors qu'avec Manuscript, toutes les données de chaîne sont déjà prétraitées selon une norme unifiée, permettant aux développeurs d'appeler directement des données structurées telles que les "enregistrements de mise en jeu des utilisateurs" et les "enregistrements de fourniture de liquidité", réduisant considérablement le cycle d'entraînement du modèle.

La principale exigence des modèles d'IA pour les données est "fiable" - si les données d'entraînement sont falsifiées ou contaminées, les résultats du modèle seront sans valeur. Le mécanisme AVS (Active Validator Set) d'Ethereum peut garantir l'authenticité des données. L'AVS est un composant d'extension de la couche de consensus d'Ethereum, composé de plus de 600 000 nœuds de validateurs stakés avec des ETH, chargés de vérifier l'intégrité et l'exactitude des données sur la chaîne. Lors du traitement d'un événement sur la chaîne, les nœuds AVS croisent les valeurs de hachage des données, les informations de signature et l'état sur la chaîne pour garantir que les données structurées produites correspondent exactement aux données originales sur la chaîne.

Ce mécanisme de vérification appelé "garantie de l'économie cryptographique" résout le problème de confiance des vérifications centralisées traditionnelles. Par exemple, si une entreprise d'IA utilise des données en chaîne fournies par une institution centralisée, elle doit faire confiance à cette institution pour qu'elle n'ait pas falsifié les données ; tandis qu'avec le réseau Hyperdata, l'authenticité des données est garantie par un réseau de validateurs décentralisés, et toute tentative de falsification déclenchera un mécanisme de pénalité dans le contrat intelligent (comme la confiscation de l'ETH mis en garantie).

Couche de disponibilité des données à haut débit

Les modèles d'IA, en particulier les applications d'IA interactives en temps réel (comme les robots de trading et le service client intelligent), nécessitent un approvisionnement en données à faible latence et à haut débit. En optimisant les algorithmes de compression de données et les protocoles de transmission, il est possible de traiter en temps réel des centaines de milliers d'événements sur la chaîne par seconde. Par exemple, lorsqu'une transaction importante se produit sur un DEX, le système peut extraire, standardiser et valider les données en 1 seconde, et envoyer le "signal de transaction importante" structuré aux modèles d'IA abonnés, leur permettant d'ajuster rapidement leur stratégie de trading.

Derrière le haut débit se trouve une architecture modulaire — séparant le stockage des données et le calcul, le stockage des données étant pris en charge par un réseau de nœuds distribués, tandis que le calcul est réalisé via des Rollups hors chaîne, évitant ainsi le goulot d'étranglement de performance de la blockchain elle-même. Ce design permet au système de soutenir les besoins en données en temps réel des applications IA à grande échelle, comme la fourniture de services de données en ligne sur chaîne pour de nombreux agents de transactions.

L'ère DataFi : Lorsque les données deviennent un "capital" négociable

L'objectif ultime du Hyperdata Network est de propulser l'industrie de l'IA vers l'ère DataFi - les données ne sont plus un "matériel d'entraînement" passif, mais un "capital" actif, pouvant être tarifé, échangé et valorisé. Tout comme l'électricité est tarifée en kilowatts, la puissance de calcul est tarifée en FLOPS, les données doivent également être notées, classées et évaluées. La réalisation de cette vision repose sur la transformation des données en quatre attributs clés :

Structuré : de "signal brut" à "actif utilisable"

Les données brutes sur la chaîne sont comme du "pétrole brut", elles doivent être raffinées pour devenir de "l'essence". Grâce à la normalisation, elles sont transformées en données structurées, par exemple en décomposant "L'adresse du portefeuille A a déposé X jetons dans le protocole B à l'heure T" en données multidimensionnelles contenant des profils utilisateurs, des attributs de protocole, des types d'actifs et des horodatages. Cette structuration permet aux données d'être directement appelées par des modèles d'IA, tout comme il est aussi simple d'appeler une interface API.

Combinable : les "legos" des données

Dans le Web3, la "combinabilité" a engendré l'explosion de la DeFi (comme l'innovation par la combinaison de différents protocoles). En introduisant cette idée dans le domaine des données : les données structurées peuvent être combinées librement comme des briques Lego. Par exemple, les développeurs peuvent combiner les "enregistrements de staking des utilisateurs" (provenant de protocoles de staking) avec les "données de volatilité des prix" (provenant d'oracles), et le "volume de mentions sociales" (provenant des API des plateformes sociales) pour entraîner un "modèle de prévision de l'humeur du marché DeFi". Cette combinabilité élargit considérablement les frontières d'application des données, permettant à l'innovation en IA de ne plus être limitée à une seule source de données.

vérifiable : "garantie de crédit" des données

Les données structurées vérifiées génèrent une "empreinte de données" (valeur de hachage) unique, qui est stockée sur la blockchain. Toute application IA ou développeur utilisant ces données peut confirmer l'authenticité des données en vérifiant la valeur de hachage. Cette "vérifiabilité" confère aux données une propriété de crédit - par exemple, un ensemble de données étiqueté comme "signal de transaction de haute qualité" peut voir son taux de précision historique retracé grâce aux enregistrements de hachage sur la blockchain, permettant aux utilisateurs de ne pas avoir à faire confiance au fournisseur de l'ensemble de données, mais de simplement vérifier l'empreinte de données pour évaluer la qualité des données.

Monétisation : la "monétisation de la valeur des données"

À l'ère de DataFi, les fournisseurs de données peuvent monétiser directement des données structurées via le réseau Hyperdata. Par exemple, une équipe a développé un "signal d'alerte de vulnérabilité de contrat intelligent" en analysant des données en chaîne, et peut emballer ce signal en un service API, facturant par nombre d'appels ; les utilisateurs ordinaires peuvent également autoriser le partage de leurs données anonymisées en chaîne et recevoir des récompenses en jetons de données. Dans l'écosystème, la valeur des données est déterminée par l'offre et la demande du marché - des signaux de transaction à haute précision peuvent être tarifés plus chers, tandis que les données comportementales de base des utilisateurs peuvent être facturées à la pièce.

Conclusion : Révolution des données, la prochaine décennie de l'IA

Lorsque nous parlons de l'avenir de l'IA, nous nous concentrons souvent sur le "niveau d'intelligence" des modèles, tout en négligeant le "sol de données" qui soutient cette intelligence. Le Hyperdata Network révèle une vérité fondamentale : l'évolution de l'IA est essentiellement l'évolution de l'infrastructure des données. De la "limitation" des données générées par l'homme à la "découverte de valeur" des données sur la chaîne, du "désordre" des signaux fragmentés à l'"ordre" des données structurées, de la "ressource gratuite" des données à l'"actif capital" de DataFi, cette nouvelle infrastructure est en train de remodeler la logique sous-jacente de l'industrie de l'IA.

Dans cette ère de DataFi, les données deviendront le pont reliant l'IA et le monde réel - les agents de transaction perçoivent les émotions du marché grâce aux données on-chain, les dApps autonomes optimisent leurs services grâce aux données de comportement des utilisateurs, et les utilisateurs ordinaires obtiennent des revenus continus en partageant des données. Tout comme le réseau électrique a engendré la révolution industrielle, le réseau de puissance de calcul a engendré la révolution de l'internet, le Hyperdata Network est en train de susciter la "révolution des données" de l'IA.

Les applications AI-native de prochaine génération nécessitent non seulement des modèles ou des portefeuilles, mais aussi des données programmables, sans confiance et à fort signal. Lorsque les données seront enfin dotées de la valeur qui leur revient, l'IA pourra véritablement libérer le pouvoir de changer le monde.

ETH2.17%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 4
  • Reposter
  • Partager
Commentaire
0/400
ContractCollectorvip
· 08-10 03:27
Ne vous précipitez pas à rassembler des données, jetez d'abord un œil au Spot et aux contrats.
Voir l'originalRépondre0
DeFiCaffeinatorvip
· 08-10 01:16
Ne va-t-il pas vraiment y avoir des gens qui croient à ce piège de capitalisation des données ?
Voir l'originalRépondre0
FudVaccinatorvip
· 08-10 01:16
Les mineurs de données commencent à extraire.
Voir l'originalRépondre0
SchroedingersFrontrunvip
· 08-10 01:12
Ah, j'ai tellement faim, je suis devenu une famine de données.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)