AI+Web3 : Révolution décentralisée des données, Puissance de calcul et modèles

AI+Web3 : Tours et places

TL;DR

  1. Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de capitaux sur les marchés primaire et secondaire.

  2. Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne ( à travers les données, le stockage et le calcul ), tout en établissant un marché décentralisé pour les modèles open source et les agents IA.

  3. L'IA dans l'industrie Web3 est principalement utilisée pour les paiements cryptographiques en chaîne (, les transactions, l'analyse des données ) et le développement assisté.

  4. L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 est censé lutter contre la centralisation de l'IA, et l'IA devrait aider Web3 à sortir de son cadre.

AI+Web3 : tours et places

Introduction

Au cours des deux dernières années, le développement de l'IA a été comme si on avait appuyé sur le bouton d'accélération. La vague provoquée par Chatgpt a non seulement ouvert une nouvelle ère pour l'intelligence artificielle générative, mais a également suscité de grandes vagues dans le domaine du Web3.

Sous l'impulsion du concept d'IA, le financement du marché de la cryptographie, qui ralentit, montre une nette amélioration. Selon les statistiques, seulement au cours du premier semestre 2024, 64 projets Web3+IA ont réussi à lever des fonds, dont le système d'exploitation basé sur l'intelligence artificielle Zyber365 a levé 100 millions de dollars lors de la série A, établissant un nouveau record.

Le marché secondaire est plus prospère, selon les données du site d'agrégation de crypto-monnaies Coingecko, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars en un peu plus d'un an, avec un volume de transactions sur 24 heures proche de 8,6 milliards de dollars ; les avancées technologiques majeures en IA apportent des avantages évidents, après la publication du modèle de conversion texte-vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des segments d'absorption des crypto-monnaies, les Memes : le premier concept de MemeCoin AI Agent - GOAT - a rapidement gagné en popularité et a obtenu une valorisation de 1,4 milliard de dollars, suscitant un engouement pour les Memes AI.

La recherche et les discussions sur l'AI+Web3 sont tout aussi brûlantes, allant de l'AI+Depin à l'AI Memecoin, puis à l'AI Agent et l'AI DAO actuels. L'émotion FOMO ne parvient déjà plus à suivre la vitesse de rotation des nouveaux récits.

Le terme combiné AI+Web3, rempli d'argent facile, de tendances et de fantasmes futurs, est inévitablement perçu comme un mariage arrangé par le capital. Il est difficile de discerner, sous cette belle apparence, s'il s'agit vraiment du terrain de jeu des spéculateurs ou de la veille de l'explosion de l'aube ?

Pour répondre à cette question, une réflexion clé pour les deux parties est : cela s'améliorera-t-il avec l'autre ? Peut-on bénéficier du modèle de l'autre ? Cet article tente d'examiner ce schéma en se tenant sur les épaules des géants : comment le Web3 peut-il jouer un rôle dans les différentes étapes de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?

Quelles opportunités Web3 sous la pile AI?

Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :

Les grands modèles sont comme le cerveau humain, au début, ils ressemblent à des bébés nouvellement nés, ayant besoin d'observer et d'absorber une quantité massive d'informations extérieures pour comprendre le monde, c'est la phase de "collecte" des données ; comme les ordinateurs n'ont pas les multiples sens humains, il est nécessaire de "prétraiter" les informations non étiquetées en un format compréhensible par l'ordinateur avant l'entraînement.

Après avoir saisi les données, l'IA construit un modèle capable de comprendre et de prédire par le biais de "l'entraînement", similaire au processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle sont semblables aux capacités linguistiques que le bébé ajuste continuellement. Lorsque le contenu d'apprentissage est divisé par domaine ou qu'il communique avec les gens pour obtenir des retours et se corriger, il entre dans la phase de "réglage fin".

Lorsque les enfants grandissent et commencent à parler, ils peuvent comprendre le sens et exprimer des idées dans de nouveaux dialogues, semblable au "raisonnement" des grands modèles d'IA, ce qui leur permet de faire des analyses prédictives sur de nouveaux textes linguistiques. Les bébés expriment des sentiments, décrivent des objets et résolvent des problèmes par le langage, de manière similaire à l'application des grands modèles d'IA dans la phase de raisonnement après leur entraînement sur divers types de tâches spécifiques, telles que la classification d'images, la reconnaissance vocale, etc.

L'Agent IA est alors plus proche de la prochaine forme des grands modèles - capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de capacités de réflexion, mais aussi capable de mémoire, de planification, et capable d'utiliser des outils pour interagir avec le monde.

Actuellement, face aux points de douleur de l'IA, Web3 a commencé à former un écosystème multicouche et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.

AI+Web3 : Tours et places

Couche de base : Airbnb de puissance de calcul et de données

Puissance de calcul

Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour entraîner et inférer des modèles.

Par exemple, LLAMA3 de Meta nécessite 16 000 GPU NVIDIA H100 pendant 30 jours pour terminer l'entraînement. Le prix unitaire du modèle H100 80 Go est de 30 000 à 40 000 dollars, ce qui nécessite un investissement en matériel de calcul de 400 à 700 millions de dollars ( GPU + puces réseau ), la consommation d'énergie mensuelle pour l'entraînement s'élève à 1,6 milliard de kilowattheures, avec des dépenses énergétiques proches de 20 millions de dollars.

La décompression de la puissance de calcul de l'IA est également l'un des premiers domaines où Web3 croise l'IA — le réseau d'infrastructures physiques décentralisées DePin(. Actuellement, le site de données DePin Ninja a répertorié plus de 1400 projets, parmi lesquels des projets représentatifs de partage de puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.

La logique principale est la suivante : la plateforme permet aux propriétaires de ressources GPU inutilisées de contribuer à la capacité de calcul de manière décentralisée et sans autorisation, à travers un marché en ligne pour acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées, tandis que les utilisateurs finaux obtiennent des ressources de calcul efficaces à moindre coût ; en même temps, un mécanisme de staking garantit que les fournisseurs de ressources sont punis s'ils violent le mécanisme de contrôle de qualité ou interrompent le réseau.

Caractéristiques incluses :

  • Rassembler des ressources GPU inutilisées : les fournisseurs sont principalement des opérateurs de centres de données indépendants de petite et moyenne taille, de fermes minières de cryptomonnaies, etc., disposant de ressources de calcul excédentaires, et utilisant des matériels de minage avec un mécanisme de consensus PoS, tels que les mineurs de FileCoin et d'ETH. Certains projets s'efforcent de réduire le seuil d'entrée, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, pour établir un réseau de calcul pour l'inférence de grands modèles.

  • Ciblant le marché de la puissance de calcul AI de longue traîne : a. Côté technique : le marché de la puissance de calcul décentralisée est mieux adapté aux étapes d'inférence. L'entraînement dépend davantage des capacités de traitement de données des GPU à grande échelle, tandis que l'inférence a des exigences relativement plus faibles en termes de performance de calcul des GPU, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence AI. b. Côté demande : Les petites et moyennes entreprises ne formeront pas leur propre grand modèle indépendamment, mais choisiront plutôt d'optimiser et d'ajuster les quelques grands modèles principaux. Ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées distribuées.

  • Propriété décentralisée : La signification de la technologie blockchain réside dans le fait que les propriétaires de ressources conservent toujours le contrôle sur celles-ci, pouvant les ajuster de manière flexible en fonction de la demande et en tirer des bénéfices.

)# Données

Les données sont la base de l'IA. Sans données, le calcul est comme une herbe flottante, complètement inutile, et la relation entre les données et le modèle est semblable au proverbe "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de la sortie finale du modèle. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent la capacité linguistique du modèle, sa capacité de compréhension, et même ses valeurs et son expression humanisée. Actuellement, les difficultés liées aux besoins en données de l'IA se manifestent principalement par :

  • Soif de données : l'entraînement des modèles d'IA dépend d'une quantité massive de données d'entrée. Selon les informations, OpenAI a entraîné GPT-4 avec un nombre de paramètres atteignant le niveau des trillions.

  • Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité, la diversité, la spécialisation des données sectorielles et l'intégration de nouvelles sources de données telles que les émotions des médias sociaux posent de nouvelles exigences sur leur qualité.

  • Problèmes de confidentialité et de conformité : les pays et les entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et commencent à restreindre l'extraction de ces ensembles.

  • Coûts élevés de traitement des données : volumes de données importants, processus de traitement complexe. Selon des sources, plus de 30 % des coûts de R&D des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.

Actuellement, les solutions Web3 se manifestent par :

  1. Collecte de données : Les données du monde réel pouvant être fournies gratuitement s'épuisent rapidement, et les dépenses des entreprises d'IA pour les données augmentent chaque année. Cependant, ces dépenses ne profitent pas réellement aux véritables contributeurs de données, les plateformes bénéficiant seules de la création de valeur apportée par les données, comme Reddit qui a réalisé un revenu de 203 millions de dollars grâce à des accords de licence de données avec des entreprises d'IA.

Permettre aux véritables contributeurs d'impliquer les utilisateurs dans la création de valeur des données et d'obtenir des données plus privées et plus précieuses à moindre coût grâce à un réseau distribué et à des mécanismes d'incitation est la vision du Web3.

  • Grass est une couche de données et un réseau décentralisés, les utilisateurs peuvent exécuter des nœuds Grass, contribuer avec de la bande passante inutilisée et du trafic de relais pour capturer les données en temps réel sur l'ensemble d'Internet, et recevoir des récompenses en jetons.

  • Vana introduit le concept unique de pool de liquidité de données ###DLP(, permettant aux utilisateurs de télécharger des données privées ) telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc. ( dans un DLP spécifique, et de choisir librement s'ils souhaitent autoriser des tiers spécifiques à les utiliser.

  • Dans PublicAI, les utilisateurs peuvent utiliser ) le tag Web3 sur X et @PublicAI pour réaliser la collecte de données.

  1. Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et comportent des erreurs. Avant de former le modèle, il est nécessaire de nettoyer et de convertir ces données en un format utilisable, ce qui implique des tâches répétées de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares moments où l'intervention humaine est nécessaire dans l'industrie de l'IA, ce qui a donné naissance au métier de spécialiste de l'annotation des données. À mesure que les modèles exigent une meilleure qualité des données, le niveau d'entrée pour les spécialistes de l'annotation des données s'est également élevé, et cette tâche est naturellement adaptée au mécanisme d'incitation décentralisé de Web3.
  • Grass et OpenLayer envisagent d'intégrer cette étape clé de l'annotation des données.

  • Synesis a présenté le concept de "Train2earn", soulignant la qualité des données. Les utilisateurs peuvent recevoir des récompenses en fournissant des données annotées, des commentaires ou d'autres contributions.

  • Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.

  1. Confidentialité et sécurité des données : il est nécessaire de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre les accès non autorisés, la destruction et le vol. Par conséquent, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent dans : #AI或#1( entraînement de données sensibles ; )2( collaboration sur les données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager les données brutes.

Les technologies de confidentialité actuellement courantes dans le Web3 incluent :

  • Environnement d'exécution de confiance)TEE(, comme Super Protocol;

  • Cryptographie homomorphe complète ) FHE (, comme BasedAI, Fhenix.io ou Inco Network;

  • Technologie de preuve à divulgation nulle d'information )zk(, comme le protocole Reclaim qui utilise la technologie zkTLS, générant une preuve de zéro connaissance pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des activités, de la réputation et des données d'identité à partir de sites externes sans exposer d'informations sensibles.

Cependant, ce domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, et le principal défi est le coût de calcul trop élevé, par exemple:

  • Le cadre zkML EZKL nécessite environ 80 minutes pour générer la preuve du modèle 1M-nanoGPT.

  • Selon les données de Modulus Labs, les coûts du zkML sont supérieurs de plus de 1000 fois à ceux du calcul pur.

  1. Stockage des données : Une fois les données obtenues, il est également nécessaire de stocker les données sur la chaîne et de générer des LLM à partir de ces données. La disponibilité des données )DA( étant le problème central, avant la mise à niveau Danksharding d'Ethereum, son débit était de 0,08 Mo. Or, l'entraînement de modèles d'IA et l'inférence en temps réel nécessitent généralement un débit de 50 à 100 Go par seconde. Cette différence d'échelle rend les solutions existantes sur la chaîne incapables de faire face aux "applications IA gourmandes en ressources".
  • 0g.AI est un projet représentatif de ce type. Il s'agit d'une solution de stockage centralisée conçue pour répondre aux besoins de haute performance en IA, avec des caractéristiques clés incluant : haute performance et évolutivité, supportant le téléchargement et le téléchargement rapides de grands ensembles de données grâce à des technologies de sharding avancées )Sharding( et de codage de correction d'erreurs )Erasure Coding(, avec une vitesse de transmission de données atteignant près de 5 Go par seconde.

) Middleware : Entraînement et inférence du modèle

Marché décentralisé de modèles open source

Le débat sur la question de savoir si les modèles d'IA doivent être open source ou fermés n'a jamais cessé. L'innovation collective apportée par l'open source est un avantage que les modèles fermés ne peuvent égaler. Cependant, sans un modèle de rentabilité, comment les modèles open source peuvent-ils augmenter la motivation des développeurs ? C'est une direction qui mérite réflexion. En avril de cette année, le fondateur de Baidu, Li Yanhong, a affirmé : "Les modèles open source vont de plus en plus prendre du retard."

À cet égard, Web3 propose la possibilité d'un marché de modèles décentralisés et open source, c'est-à-dire de tokeniser le modèle lui-même, de conserver un certain pourcentage de tokens pour l'équipe, et de diriger une partie des futurs revenus de ce modèle vers les détenteurs de tokens.

  • Le protocole Bittensor établit un marché P2P de modèles open source, composé de dizaines de "sous-réseaux". Les fournisseurs de ressources ### calculent, collectent/stockent des données et les talents en apprentissage automatique ( rivalisent entre eux pour atteindre les objectifs des propriétaires de sous-réseaux spécifiques. Les sous-réseaux peuvent interagir et apprendre les uns des autres, réalisant ainsi une intelligence plus puissante. Les récompenses sont réparties par vote de la communauté et sont ensuite redistribuées dans chaque sous-réseau en fonction des performances de la concurrence.

  • ORA introduit le concept d'émission de modèles initiale )IMO(, tokenisant les modèles d'IA, pouvant être achetés, vendus et développés via un réseau décentralisé.

  • Sentient, un réseau décentralisé

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Reposter
  • Partager
Commentaire
0/400
AlwaysAnonvip
· 08-11 21:58
Où sont ceux qui s'occupent de web3 et ne s'intéressent pas à l'IA ?
Voir l'originalRépondre0
DAOplomacyvip
· 08-10 07:18
encore une autre narration web3 x ai... j'ai déjà vu ce film pour être honnête
Voir l'originalRépondre0
SerLiquidatedvip
· 08-10 07:17
Encore à dessiner des BTC.
Voir l'originalRépondre0
ReverseTradingGuruvip
· 08-10 07:05
On peut encore gagner de l'argent, n'est-ce pas ?
Voir l'originalRépondre0
DegenMcsleeplessvip
· 08-10 07:03
prendre les gens pour des idiots une vague d'IA est ce que cela signifie...
Voir l'originalRépondre0
staking_grampsvip
· 08-10 06:57
Toujours en train de spéculer sur la tendance de l'IA ? Ennuyeux.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)