Nouveau point focal de l'industrie de l'IA : les données off-chain deviennent la clé pour surmonter le goulot d'étranglement des données.

Nouvel enjeu de l'industrie de l'IA : la valeur des infrastructures de données et des données off-chain.

Avec le nombre de paramètres des modèles d'intelligence artificielle dépassant le billion, la puissance de calcul mesurée en quintillions d'opérations par seconde, les données sont devenues le principal goulot d'étranglement du développement de l'IA. L'innovation future dans l'industrie de l'IA ne sera plus dominée par les architectures de modèles ou la puissance de calcul des puces, mais dépendra de la manière de transformer les données comportementales humaines fragmentées en ressources vérifiables, structurées, et directement utilisables par l'IA. Cette tendance révèle les contradictions structurelles auxquelles le développement actuel de l'IA est confronté, tout en esquissant un tout nouveau paysage de "financiarisation des données". Dans cette ère, les données deviendront un facteur de production central mesurable, échangeable et valorisable, tout comme l'électricité et la puissance de calcul.

Les dilemmes de données auxquels est confrontée l'industrie de l'IA

Le développement de l'IA a longtemps été piloté par le double cœur "modèle-puissance de calcul". Depuis la révolution de l'apprentissage profond, les paramètres des modèles sont passés de millions à des trillions, avec une demande de puissance de calcul en augmentation exponentielle. On estime que le coût de formation d'un modèle de langage avancé a dépassé 100 millions de dollars, dont 90 % sont consacrés à la location de clusters GPU. Cependant, alors que l'industrie se concentre sur "des modèles plus grands" et "des puces plus rapides", une crise silencieuse du côté de l'offre de données est en train de survenir.

Les "données organiques" générées par l'homme ont atteint un plafond de croissance. Prenons les données textuelles comme exemple, la quantité totale de texte de haute qualité accessible sur Internet et pouvant être exploré est d'environ 10^12 mots, tandis qu'un modèle à cent milliards de paramètres nécessite environ 10^13 mots de données pour s'entraîner. Cela signifie que le pool de données existant ne peut soutenir l'entraînement que de 10 modèles de taille équivalente. Plus grave encore, la proportion de données répétées et de contenus de faible qualité dépasse 60 %, ce qui compresse encore l'offre de données efficaces. Lorsque les modèles commencent à "engloutir" les données générées par eux-mêmes, la dégradation des performances du modèle causée par "la pollution des données" est devenue une préoccupation majeure dans l'industrie.

Cette contradiction trouve son origine dans le fait que l'industrie de l'IA considère depuis longtemps les données comme une "ressource gratuite", plutôt que comme un "actif stratégique" devant être soigneusement cultivé. Les modèles et la puissance de calcul ont déjà formé un système de marché mature, mais la production, le nettoyage, la validation et l'échange des données sont encore à l'ère "sauvage". La prochaine décennie de l'IA sera celle des "infrastructures de données", et les données on-chain des réseaux cryptographiques sont la clé pour déverrouiller cette impasse.

off-chain données : la "base de données sur le comportement humain" la plus nécessaire pour l'IA

Dans le contexte de la famine de données, les données on-chain des réseaux cryptographiques montrent une valeur inestimable. Comparées aux données de l'internet traditionnel, les données on-chain possèdent intrinsèquement une authenticité de "l'alignement des incitations". Chaque transaction, chaque interaction de contrat, chaque comportement d'adresse de portefeuille est directement lié à un capital réel et est immuable. Ces données peuvent être définies comme "les données sur les comportements d'alignement des incitations humaines les plus concentrées sur Internet", se manifestant dans trois dimensions :

  1. Signaux d'intention du monde réel : les données off-chain enregistrent les comportements décisionnels votés avec de l'argent réel, reflétant directement le jugement des utilisateurs sur la valeur du projet, leur tolérance au risque et leur stratégie de allocation de fonds. Ces données "soutenues par le capital" ont une valeur extrêmement élevée pour former la capacité décisionnelle de l'IA.

  2. Chaîne de "comportement" traçable : La transparence de la blockchain permet de retracer intégralement le comportement des utilisateurs. L'historique des transactions d'une adresse de portefeuille, les protocoles avec lesquels elle a interagi et les variations des actifs détenus forment une "chaîne de comportement" cohérente. Ces données comportementales structurées constituent les "échantillons de raisonnement humain" les plus rares pour les modèles d'IA actuels.

  3. Accès "sans autorisation" à un écosystème ouvert : les données off-chain sont ouvertes et sans autorisation. Tout développeur peut accéder aux données brutes via un explorateur de blockchain ou une API de données, offrant ainsi une source de données "sans barrières" pour l'entraînement des modèles d'IA.

Cependant, l'ouverture des données off-chain pose également des défis : ces données existent sous forme de "journaux d'événements", ce sont des "signaux bruts" non structurés, qui doivent être nettoyés, normalisés et corrélés pour être utilisés par les modèles d'IA. Actuellement, le "taux de transformation structuré" des données off-chain est inférieur à 5 %, et un grand nombre de signaux de haute valeur sont enfouis dans des milliards d'événements fragmentés.

données on-chain "système d'exploitation"

Pour résoudre le problème de la fragmentation des données off-chain, l'industrie a proposé un concept de "système d'exploitation intelligent off-chain" spécialement conçu pour l'IA. L'objectif principal est de transformer les signaux off-chain dispersés en données prêtes pour l'IA, structurées, vérifiables et en temps réel. Ce système comprend les composants clés suivants :

  1. Normes de données ouvertes : unifier la définition et la description des données off-chain, s'assurer que les modèles d'IA n'ont pas besoin de s'adapter aux formats de données de différentes chaînes ou protocoles, et peuvent directement "comprendre" la logique métier derrière les données.

  2. Mécanisme de validation des données : Assurer l'authenticité des données grâce au mécanisme de consensus de la blockchain. Lorsque le système traite un événement sur la chaîne, les nœuds de validation croisent les valeurs de hachage des données, les informations de signature et l'état de la chaîne pour garantir que les données structurées produites sont entièrement cohérentes avec les données originales sur la chaîne.

  3. Couche de disponibilité des données à haut débit : en optimisant les algorithmes de compression des données et les protocoles de transmission, permettant le traitement en temps réel de centaines de milliers d'événements off-chain par seconde. Ce design permet au système de soutenir les besoins en données en temps réel des applications AI à grande échelle.

Vision de l'ère de la "financiarisation des données"

L'objectif ultime de ce système d'exploitation de données en chaîne est de propulser l'industrie de l'IA dans l'ère de la "financiarisation des données" - les données ne sont plus un "matériau d'entraînement" passif, mais un "capital" actif, pouvant être évalué, échangé et valorisé. La réalisation de cette vision dépend de la transformation des données en quatre attributs clés :

  1. Structuré : Transformer les données brutes off-chain en données structurées pouvant être directement appelées par des modèles AI.

  2. Combinable : Les données structurées peuvent être combinées librement comme des blocs de Lego, élargissant ainsi les frontières d'application des données.

  3. Vérifiable : Assurer l'authenticité et la traçabilité des données grâce à la technologie blockchain.

  4. Monétisable : Les fournisseurs de données peuvent monétiser directement les données structurées, la valeur des données étant déterminée par l'offre et la demande du marché.

Dans cette nouvelle ère, les données deviendront le pont reliant l'IA au monde réel. Les agents de trading peuvent percevoir le sentiment du marché grâce aux données off-chain, les applications autonomes peuvent optimiser les services grâce aux données comportementales des utilisateurs, et les utilisateurs ordinaires peuvent obtenir des revenus continus en partageant des données.

Lorsque nous parlons de l'avenir de l'IA, nous ne devrions pas nous concentrer uniquement sur le "niveau d'intelligence" des modèles, mais aussi prêter attention au "sol de données" qui soutient cette intelligence. L'évolution de l'IA est en réalité l'évolution de l'infrastructure de données. De la "limitation" des données générées par l'homme à la "découverte de valeur" des données off-chain, du "désordre" des signaux fragmentés à l'"ordre" des données structurées, de la "ressource gratuite" des données à l'"actif de capital" de la "financiarisation des données", ces transformations sont en train de redéfinir la logique sous-jacente de l'industrie de l'IA.

Tout comme les réseaux électriques ont engendré la révolution industrielle, les réseaux de puissance ont engendré la révolution Internet, les réseaux de données sont en train de susciter la "révolution des données" de l'IA. La prochaine génération d'applications IA nécessitera non seulement des modèles ou des portefeuilles, mais aussi des données sans confiance, programmables et à fort signal. Lorsque les données seront enfin dotées de la valeur qu'elles méritent, l'IA pourra vraiment libérer le pouvoir de changer le monde.

READY-10.79%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Partager
Commentaire
0/400
AirdropDreamBreakervip
· Il y a 3h
Monétiser les données, c'est ça ? Nouvelle appellation pour les pigeons.
Voir l'originalRépondre0
MevWhisperervip
· Il y a 3h
Les données off-chain sont effectivement très en vogue ces derniers temps.
Voir l'originalRépondre0
ZkProofPuddingvip
· Il y a 3h
Pourquoi a-t-on l'impression de spéculer sur un concept ? Hehe
Voir l'originalRépondre0
ForkThisDAOvip
· Il y a 3h
Donc, on va quand même faire du trading de données.
Voir l'originalRépondre0
AlwaysMissingTopsvip
· Il y a 3h
Les données sont le véritable nouveau pétrole.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)