Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de fonds sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne ------ à travers les données, le stockage et le calcul ; en même temps, établir un modèle open source ainsi qu'un marché décentralisé pour les agents IA.
L'IA trouve principalement son utilité dans l'industrie Web3 pour la finance sur la chaîne (paiements cryptographiques, transactions, analyses de données) ainsi que pour l'assistance au développement.
L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, l'IA espère aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a semblé être mis sur un mode accéléré. Cette vague d'enthousiasme provoquée par ChatGPT a non seulement ouvert un nouveau monde pour l'intelligence artificielle générative, mais a également suscité un courant dans le Web3 de l'autre côté.
Sous l'influence du concept d'IA, le financement dans le marché de la cryptographie, qui ralentit, montre une nette amélioration. Selon les médias, au cours du premier semestre 2024, 64 projets Web3+IA ont réussi à lever des fonds, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un montant de financement maximum de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, selon les données d'un certain site agrégateur de crypto-monnaies, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars en un peu plus d'un an, avec un volume de transactions de près de 8,6 milliards de dollars sur 24 heures ; les avancées des technologies d'IA mainstream apportent des bénéfices évidents, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des segments de collecte de fonds en crypto-monnaies, les Memes : le premier concept de MemeCoin AI Agent ------ GOAT a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, déclenchant avec succès la tendance des Memes IA.
La recherche et les discussions sur AI+Web3 sont tout aussi brûlantes, allant de AI+Depin à AI Memecoin, puis aux actuels AI Agent et AI DAO, l'émotion FOMO n'arrive clairement plus à suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes d'avenir, ne peut que être perçue comme un mariage arrangé orchestré par le capital. Il semble difficile de discerner sous ce manteau flamboyant, s'agit-il vraiment du terrain des spéculateurs ou de la veille de l'éruption de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est de savoir si la relation peut s'améliorer grâce à l'autre. Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les travaux des prédécesseurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Partie 1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimer tout le processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et a besoin d'observer et d'absorber une énorme quantité d'informations de l'environnement pour comprendre le monde. C'est la phase de « collecte » des données. Comme les ordinateurs n'ont pas les sens de la vue et de l'ouïe comme les humains, avant l'entraînement, les vastes informations non étiquetées doivent être transformées par un « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir saisi les données, l'IA construit un modèle capable de comprendre et de prédire grâce à un "entraînement". Cela peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle ressemblent à la capacité linguistique d'un bébé qui s'ajuste continuellement au cours de son apprentissage. Lorsque le contenu de l'apprentissage commence à se spécialiser ou que des retours sont obtenus par des échanges avec d'autres personnes et que des corrections sont apportées, on entre dans la phase de "réglage fin" du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et leurs pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs capacités linguistiques, ce qui est également comparable à l'application des grands modèles d'IA dans la phase de raisonnement après la formation pour diverses tâches spécifiques, telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent AI se rapproche davantage de la prochaine forme des grands modèles ------ capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de la capacité de réflexion, mais également capable de mémoire, de planification, et capable d'utiliser des outils pour interagir avec le monde.
Actuellement, face aux problèmes liés à l'IA dans différents domaines, le Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb de la puissance de calcul et des données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour former des modèles et effectuer des inférences.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100GPU fabriqués par NVIDIA (qui est une unité de traitement graphique haut de gamme conçue pour des charges de travail d'intelligence artificielle et de calcul haute performance). Cela prend 30 jours pour compléter l'entraînement. Le prix unitaire de la version 80 Go est compris entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel informatique de 4 à 7 milliards de dollars (GPU + puces réseau), tandis que l'entraînement mensuel consomme 1,6 milliard de kilowattheures, les dépenses énergétiques s'élevant à près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et AI ------ DePin (réseau d'infrastructure physique décentralisé). Actuellement, un site de données a déjà répertorié plus de 1400 projets, parmi lesquels les projets représentant le partage de la puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux individus ou entités disposant de ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, en créant un marché en ligne pour acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées, ce qui permet également aux utilisateurs finaux d'accéder à des ressources de calcul efficaces à moindre coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions du réseau se produisent, les fournisseurs de ressources sont soumis à des sanctions appropriées.
Ses caractéristiques sont :
Agrégation des ressources GPU inutilisées : Les fournisseurs proviennent principalement de centres de données indépendants de taille moyenne, de mineurs de cryptomonnaies et d'autres opérateurs ayant des ressources de calcul excédentaires, avec un mécanisme de consensus basé sur le PoS, tels que les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des dispositifs avec des seuils d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, pour établir un réseau de calcul pour l'inférence de grands modèles.
Faire face au marché à long terme de la puissance de calcul de l'IA :
a. « Du point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage des capacités de traitement des données offertes par des GPU à très grande échelle, tandis que l'inférence nécessite des performances de calcul GPU relativement faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petits et moyens demandeurs de puissance de calcul ne formeront pas leurs propres grands modèles de manière indépendante, mais choisiront plutôt d'optimiser et de peaufiner autour d'un petit nombre de grands modèles de tête, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées en mode distribué.
Propriété décentralisée : La signification technique de la blockchain est que les propriétaires de ressources conservent toujours le contrôle de leurs ressources, ajustant de manière flexible selon la demande tout en tirant des bénéfices.
Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile que des roseaux flottants, et la relation entre les données et le modèle est comme le dit le proverbe "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de sortie du modèle final. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent les capacités linguistiques, les capacités de compréhension, et même les valeurs et l'humanité des modèles. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA dépend d'un volume important de données d'entrée. Les documents publics montrent que le nombre de paramètres pour entraîner GPT-4 d'OpenAI atteint le niveau du trillion.
Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles, ainsi que l'intégration de nouvelles sources de données telles que les émotions des médias sociaux, ont également posé de nouvelles exigences pour leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et imposent des restrictions sur le scraping des ensembles de données.
Coûts de traitement des données élevés : volume de données important, processus de traitement complexe. Les documents publics montrent que plus de 30 % des coûts de recherche et développement des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
Collecte de données : La fourniture gratuite de données réelles collectées s'épuise rapidement, et les dépenses des entreprises d'IA pour les données augmentent chaque année. Cependant, ces dépenses ne profitent pas vraiment aux véritables contributeurs de données, les plateformes profitant entièrement de la création de valeur apportée par les données, comme une certaine plateforme sociale qui a réalisé un revenu total de 203 millions de dollars grâce à un contrat de licence de données avec une entreprise d'IA.
L'objectif de Web3 est de permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur apportée par les données, ainsi que d'accéder, par le biais de réseaux distribués et de mécanismes d'incitation, à des données plus privées et plus précieuses à un coût réduit.
Grass est une couche de données et un réseau décentralisés, les utilisateurs peuvent exécuter des nœuds Grass, contribuer avec une bande passante inutilisée et un trafic de relais pour capturer des données en temps réel provenant de l'ensemble d'Internet et obtenir des récompenses en tokens ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), permettant aux utilisateurs de télécharger leurs données privées (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) vers un DLP spécifique et de choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour effectuer la collecte de données.
Prétraitement des données : Dans le processus de traitement des données par l'IA, les données collectées sont souvent bruyantes et contiennent des erreurs. Elles doivent être nettoyées et converties en un format utilisable avant d'entraîner le modèle, ce qui implique des tâches répétées de normalisation, de filtrage et de traitement des valeurs manquantes. Cette étape est l'un des rares moments manuels dans l'industrie de l'IA, ce qui a donné naissance à la profession de annotateur de données. Avec l'augmentation des exigences de qualité des données par les modèles, le seuil d'entrée pour les annotateurs de données a également augmenté, et cette tâche est naturellement adaptée au mécanisme d'incitation décentralisé du Web3.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.
Confidentialité et sécurité des données : Il est important de clarifier que la confidentialité des données et la sécurité des données sont deux concepts différents. La confidentialité des données concerne le traitement des données sensibles, tandis que la sécurité des données protège les informations contre l'accès, la destruction et le vol non autorisés. Ainsi, les avantages des technologies de confidentialité Web3 et les scénarios d'application potentiels se manifestent de deux manières : (1) Entraînement de données sensibles ; (2) Collaboration des données : plusieurs propriétaires de données peuvent participer ensemble à l'entraînement de l'IA sans avoir à partager leurs données brutes.
Les technologies de confidentialité les plus courantes dans le Web3 actuellement incluent :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network;
La technologie à connaissance nulle (zk), comme le Reclaim Protocol qui utilise la technologie zkTLS, génère des preuves à connaissance nulle pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, et un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :
cadre zkML
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
5
Partager
Commentaire
0/400
MEVHunterLucky
· Il y a 5h
Une nouvelle vague arrive, il y a vraiment beaucoup de concepts AI à trader.
Voir l'originalRépondre0
ChainDetective
· Il y a 17h
On va faire de l'argent !!
Voir l'originalRépondre0
0xDreamChaser
· Il y a 17h
Quand l'IA rencontre le Web3, ça devient vraiment génial.
Voir l'originalRépondre0
0xTherapist
· Il y a 17h
On y va, faisons-le.
Voir l'originalRépondre0
DuskSurfer
· Il y a 17h
Encore un rythme de se faire prendre pour des cons
Fusion de l'IA et du Web3 : marchés ouverts et co-création de valeur
IA+Web3 : Tours et places
TL;DR
Les projets Web3 basés sur l'IA deviennent des cibles d'attraction de fonds sur les marchés primaire et secondaire.
Les opportunités de Web3 dans l'industrie de l'IA se manifestent par : l'utilisation d'incitations distribuées pour coordonner l'offre potentielle dans la longue traîne ------ à travers les données, le stockage et le calcul ; en même temps, établir un modèle open source ainsi qu'un marché décentralisé pour les agents IA.
L'IA trouve principalement son utilité dans l'industrie Web3 pour la finance sur la chaîne (paiements cryptographiques, transactions, analyses de données) ainsi que pour l'assistance au développement.
L'utilité de l'IA + Web3 se manifeste dans la complémentarité des deux : Web3 espère lutter contre la centralisation de l'IA, l'IA espère aider Web3 à sortir de son cercle.
Introduction
Au cours des deux dernières années, le développement de l'IA a semblé être mis sur un mode accéléré. Cette vague d'enthousiasme provoquée par ChatGPT a non seulement ouvert un nouveau monde pour l'intelligence artificielle générative, mais a également suscité un courant dans le Web3 de l'autre côté.
Sous l'influence du concept d'IA, le financement dans le marché de la cryptographie, qui ralentit, montre une nette amélioration. Selon les médias, au cours du premier semestre 2024, 64 projets Web3+IA ont réussi à lever des fonds, et le système d'exploitation basé sur l'intelligence artificielle Zyber365 a atteint un montant de financement maximum de 100 millions de dollars lors de sa série A.
Le marché secondaire est plus prospère, selon les données d'un certain site agrégateur de crypto-monnaies, la capitalisation totale du secteur de l'IA a atteint 48,5 milliards de dollars en un peu plus d'un an, avec un volume de transactions de près de 8,6 milliards de dollars sur 24 heures ; les avancées des technologies d'IA mainstream apportent des bénéfices évidents, après la publication du modèle de conversion de texte en vidéo Sora d'OpenAI, le prix moyen du secteur de l'IA a augmenté de 151 % ; l'effet IA s'étend également à l'un des segments de collecte de fonds en crypto-monnaies, les Memes : le premier concept de MemeCoin AI Agent ------ GOAT a rapidement gagné en popularité et a atteint une valorisation de 1,4 milliard de dollars, déclenchant avec succès la tendance des Memes IA.
La recherche et les discussions sur AI+Web3 sont tout aussi brûlantes, allant de AI+Depin à AI Memecoin, puis aux actuels AI Agent et AI DAO, l'émotion FOMO n'arrive clairement plus à suivre la vitesse de rotation des nouveaux récits.
AI+Web3, cette combinaison de termes remplie d'argent facile, de tendances et de fantasmes d'avenir, ne peut que être perçue comme un mariage arrangé orchestré par le capital. Il semble difficile de discerner sous ce manteau flamboyant, s'agit-il vraiment du terrain des spéculateurs ou de la veille de l'éruption de l'aube ?
Pour répondre à cette question, une réflexion clé pour les deux parties est de savoir si la relation peut s'améliorer grâce à l'autre. Peut-on bénéficier des modèles de l'autre ? Dans cet article, nous essayons également de nous appuyer sur les travaux des prédécesseurs pour examiner ce schéma : comment le Web3 peut-il jouer un rôle à chaque étape de la pile technologique de l'IA, et qu'est-ce que l'IA peut apporter de nouveau au Web3 ?
Partie 1 Quelles sont les opportunités de Web3 sous la pile AI ?
Avant d'aborder ce sujet, nous devons comprendre la pile technologique des grands modèles d'IA :
Exprimer tout le processus dans un langage plus simple : le « grand modèle » est comme le cerveau humain. À ses débuts, ce cerveau appartient à un bébé qui vient de naître et a besoin d'observer et d'absorber une énorme quantité d'informations de l'environnement pour comprendre le monde. C'est la phase de « collecte » des données. Comme les ordinateurs n'ont pas les sens de la vue et de l'ouïe comme les humains, avant l'entraînement, les vastes informations non étiquetées doivent être transformées par un « prétraitement » en un format d'information que l'ordinateur peut comprendre et utiliser.
Après avoir saisi les données, l'IA construit un modèle capable de comprendre et de prédire grâce à un "entraînement". Cela peut être considéré comme le processus par lequel un bébé comprend et apprend progressivement le monde extérieur. Les paramètres du modèle ressemblent à la capacité linguistique d'un bébé qui s'ajuste continuellement au cours de son apprentissage. Lorsque le contenu de l'apprentissage commence à se spécialiser ou que des retours sont obtenus par des échanges avec d'autres personnes et que des corrections sont apportées, on entre dans la phase de "réglage fin" du grand modèle.
Les enfants, en grandissant et en apprenant à parler, peuvent comprendre le sens et exprimer leurs sentiments et leurs pensées dans de nouvelles conversations. Cette étape est similaire au « raisonnement » des grands modèles d'IA, qui peuvent prédire et analyser de nouvelles entrées linguistiques et textuelles. Les bébés expriment leurs sentiments, décrivent des objets et résolvent divers problèmes grâce à leurs capacités linguistiques, ce qui est également comparable à l'application des grands modèles d'IA dans la phase de raisonnement après la formation pour diverses tâches spécifiques, telles que la classification d'images, la reconnaissance vocale, etc.
L'Agent AI se rapproche davantage de la prochaine forme des grands modèles ------ capable d'exécuter des tâches de manière autonome et de poursuivre des objectifs complexes, non seulement doté de la capacité de réflexion, mais également capable de mémoire, de planification, et capable d'utiliser des outils pour interagir avec le monde.
Actuellement, face aux problèmes liés à l'IA dans différents domaines, le Web3 a commencé à former un écosystème multi-niveaux et interconnecté, couvrant toutes les étapes du processus des modèles d'IA.
Une, couche de base : Airbnb de la puissance de calcul et des données
Puissance de calcul
Actuellement, l'un des coûts les plus élevés de l'IA est la puissance de calcul et l'énergie nécessaires pour former des modèles et effectuer des inférences.
Un exemple est que le LLAMA3 de Meta nécessite 16 000 H100GPU fabriqués par NVIDIA (qui est une unité de traitement graphique haut de gamme conçue pour des charges de travail d'intelligence artificielle et de calcul haute performance). Cela prend 30 jours pour compléter l'entraînement. Le prix unitaire de la version 80 Go est compris entre 30 000 et 40 000 dollars, ce qui nécessite un investissement en matériel informatique de 4 à 7 milliards de dollars (GPU + puces réseau), tandis que l'entraînement mensuel consomme 1,6 milliard de kilowattheures, les dépenses énergétiques s'élevant à près de 20 millions de dollars par mois.
La décompression de la puissance de calcul AI est également l'un des premiers domaines de croisement entre Web3 et AI ------ DePin (réseau d'infrastructure physique décentralisé). Actuellement, un site de données a déjà répertorié plus de 1400 projets, parmi lesquels les projets représentant le partage de la puissance de calcul GPU incluent io.net, Aethir, Akash, Render Network, etc.
La logique principale est la suivante : la plateforme permet aux individus ou entités disposant de ressources GPU inutilisées de contribuer à leur capacité de calcul de manière décentralisée et sans autorisation, en créant un marché en ligne pour acheteurs et vendeurs similaire à Uber ou Airbnb, augmentant ainsi le taux d'utilisation des ressources GPU sous-utilisées, ce qui permet également aux utilisateurs finaux d'accéder à des ressources de calcul efficaces à moindre coût ; en même temps, le mécanisme de staking garantit que si des violations des mécanismes de contrôle de qualité ou des interruptions du réseau se produisent, les fournisseurs de ressources sont soumis à des sanctions appropriées.
Ses caractéristiques sont :
Agrégation des ressources GPU inutilisées : Les fournisseurs proviennent principalement de centres de données indépendants de taille moyenne, de mineurs de cryptomonnaies et d'autres opérateurs ayant des ressources de calcul excédentaires, avec un mécanisme de consensus basé sur le PoS, tels que les machines de minage FileCoin et ETH. Actuellement, certains projets s'efforcent de lancer des dispositifs avec des seuils d'entrée plus bas, comme exolab qui utilise des appareils locaux tels que MacBook, iPhone, iPad, pour établir un réseau de calcul pour l'inférence de grands modèles.
Faire face au marché à long terme de la puissance de calcul de l'IA :
a. « Du point de vue technique », le marché de la puissance de calcul décentralisée est plus adapté aux étapes d'inférence. L'entraînement dépend davantage des capacités de traitement des données offertes par des GPU à très grande échelle, tandis que l'inférence nécessite des performances de calcul GPU relativement faibles, comme Aethir qui se concentre sur le rendu à faible latence et les applications d'inférence AI.
b. Du point de vue de la demande, les petits et moyens demandeurs de puissance de calcul ne formeront pas leurs propres grands modèles de manière indépendante, mais choisiront plutôt d'optimiser et de peaufiner autour d'un petit nombre de grands modèles de tête, et ces scénarios sont naturellement adaptés aux ressources de calcul inutilisées en mode distribué.
Données
Les données sont la base de l'IA. Sans données, le calcul est aussi inutile que des roseaux flottants, et la relation entre les données et le modèle est comme le dit le proverbe "Garbage in, Garbage out". La quantité de données et la qualité des entrées déterminent la qualité de sortie du modèle final. En ce qui concerne l'entraînement des modèles d'IA actuels, les données déterminent les capacités linguistiques, les capacités de compréhension, et même les valeurs et l'humanité des modèles. Actuellement, les défis de la demande de données pour l'IA se concentrent principalement sur quatre aspects :
Soif de données : l'entraînement des modèles d'IA dépend d'un volume important de données d'entrée. Les documents publics montrent que le nombre de paramètres pour entraîner GPT-4 d'OpenAI atteint le niveau du trillion.
Qualité des données : Avec la combinaison de l'IA et des différents secteurs, la temporalité des données, la diversité des données, la spécialisation des données sectorielles, ainsi que l'intégration de nouvelles sources de données telles que les émotions des médias sociaux, ont également posé de nouvelles exigences pour leur qualité.
Problèmes de confidentialité et de conformité : Actuellement, les différents pays et entreprises prennent progressivement conscience de l'importance des ensembles de données de qualité et imposent des restrictions sur le scraping des ensembles de données.
Coûts de traitement des données élevés : volume de données important, processus de traitement complexe. Les documents publics montrent que plus de 30 % des coûts de recherche et développement des entreprises d'IA sont consacrés à la collecte et au traitement des données de base.
Actuellement, les solutions web3 se manifestent dans les quatre domaines suivants :
L'objectif de Web3 est de permettre aux utilisateurs qui contribuent réellement de participer à la création de valeur apportée par les données, ainsi que d'accéder, par le biais de réseaux distribués et de mécanismes d'incitation, à des données plus privées et plus précieuses à un coût réduit.
Grass est une couche de données et un réseau décentralisés, les utilisateurs peuvent exécuter des nœuds Grass, contribuer avec une bande passante inutilisée et un trafic de relais pour capturer des données en temps réel provenant de l'ensemble d'Internet et obtenir des récompenses en tokens ;
Vana a introduit un concept unique de pool de liquidité de données (DLP), permettant aux utilisateurs de télécharger leurs données privées (telles que les historiques d'achats, les habitudes de navigation, les activités sur les réseaux sociaux, etc.) vers un DLP spécifique et de choisir de manière flexible s'ils souhaitent autoriser l'utilisation de ces données par des tiers spécifiques ;
Dans PublicAI, les utilisateurs peuvent utiliser #AI 或#Web3 comme étiquette de classification sur X et @PublicAI pour effectuer la collecte de données.
Actuellement, Grass et OpenLayer envisagent tous deux d'intégrer l'étape clé de l'annotation des données.
Synesis a proposé le concept de « Train2earn », mettant l'accent sur la qualité des données. Les utilisateurs peuvent obtenir des récompenses en fournissant des données annotées, des commentaires ou d'autres formes d'entrée.
Le projet de marquage de données Sapien gamifie les tâches de marquage et permet aux utilisateurs de miser des points pour en gagner davantage.
Les technologies de confidentialité les plus courantes dans le Web3 actuellement incluent :
Environnement d'exécution de confiance ( TEE ), par exemple Super Protocol ;
Chiffrement homomorphe complet (FHE), par exemple BasedAI, Fhenix.io ou Inco Network;
La technologie à connaissance nulle (zk), comme le Reclaim Protocol qui utilise la technologie zkTLS, génère des preuves à connaissance nulle pour le trafic HTTPS, permettant aux utilisateurs d'importer en toute sécurité des données d'activité, de réputation et d'identité depuis des sites externes, sans exposer d'informations sensibles.
Cependant, le domaine en est encore à ses débuts, la plupart des projets sont encore en phase d'exploration, et un des dilemmes actuels est que le coût de calcul est trop élevé, quelques exemples sont :