L'IA et le secteur des cryptoactifs s'intègrent en profondeur, les grands modèles ouvrent une nouvelle vague technologique.

IA x Crypto : de zéro au sommet

Le secteur de l'IA a connu un développement rapide récemment, considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a significativement amélioré l'efficacité dans divers secteurs; il est estimé que GPT a amélioré l'efficacité du travail d'environ 20 % aux États-Unis. Parallèlement, la capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle. Dans le passé, la conception de logiciels était constituée de code précis, mais maintenant, il s'agit davantage d'intégrer des cadres de grands modèles généralisés dans les logiciels, ce qui permet aux logiciels d'avoir de meilleures performances et un soutien modal plus large. La technologie d'apprentissage profond a effectivement apporté un nouvel essor à l'industrie de l'IA, et cette vague s'est également propagée à l'industrie des cryptomonnaies.

Ce rapport explorera en détail l'évolution de l'industrie de l'IA, les classifications technologiques et l'impact des technologies d'apprentissage profond sur le secteur. Ensuite, nous analyserons en profondeur l'état actuel et les tendances du développement des chaînes de valeur en amont et en aval, notamment les GPU, le cloud computing, les sources de données et les dispositifs périphériques dans l'apprentissage profond. Enfin, nous examinerons essentiellement la relation entre les cryptomonnaies et l'industrie de l'IA, en clarifiant la structure de la chaîne de valeur de l'IA liée aux cryptomonnaies.

Nouveau guide丨IA x Crypto : de zéro au sommet

Histoire du développement de l'industrie de l'IA

L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé, à différentes époques et dans différents contextes disciplinaires, plusieurs courants pour réaliser l'intelligence artificielle.

Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont le principe est de permettre aux machines d'améliorer les performances du système en itérant sur des tâches basées sur des données. Les étapes principales consistent à entrer des données dans un algorithme, à entraîner un modèle avec les données, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.

Actuellement, il existe trois grandes écoles de pensée en apprentissage automatique, à savoir le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humain.

Nouveaux venus en science populaire丨IA x Crypto : De zéro au sommet

Actuellement, le connexionnisme représenté par les réseaux neuronaux domine, également appelé apprentissage profond, principalement parce que cette architecture possède une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et le nombre de neurones sont suffisants, il y a suffisamment d'opportunités pour modéliser des tâches complexes et générales. Grâce à l'entrée de données, les paramètres des neurones peuvent être ajustés en continu, et après plusieurs itérations de données, ces neurones atteindront un état optimal, ce qui explique également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.

Par exemple, on peut comprendre simplement qu'il s'agit de construire une fonction, où lorsque X=2, Y=3 ; lorsque X=3, Y=5. Si l'on souhaite que cette fonction s'applique à tous les X, il est nécessaire d'ajouter continuellement le degré de cette fonction et ses paramètres. Par exemple, on peut construire une fonction qui satisfait cette condition comme Y = 2X -1. Cependant, si un des points de données est X=2, Y=11, il faudra reconstruire une fonction adaptée à ces trois points de données. En utilisant un GPU pour une brute force, on découvre que Y = X2 -3X +5 est plus approprié, mais il n'est pas nécessaire que cela corresponde exactement aux données, il suffit de respecter un équilibre et d'avoir des sorties globalement similaires. Ici, X2, X et X0 représentent différents neurones, tandis que 1, -3 et 5 sont leurs paramètres.

À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.

La technologie d'apprentissage en profondeur basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, RNN, CNN, GAN, jusqu'à l'évolution vers des modèles modernes tels que le GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ), utilisé pour encoder toutes les modalités ( telles que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ces valeurs sont ensuite introduites dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.

Le développement de l'IA a connu trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie de l'IA. Cette vague a été provoquée par le développement de la technologie symbolique, qui a résolu des problèmes de traitement du langage naturel et de dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, notamment le système expert DENRAL développé par certaines institutions. Ce système possède des connaissances chimiques très avancées et utilise des questions pour déduire des réponses semblables à celles d'un expert en chimie. Ce système expert en chimie peut être considéré comme une combinaison d'une base de connaissances en chimie et d'un système de déduction.

Après les systèmes experts, des scientifiques ont proposé des réseaux bayésiens dans les années 1990, qui sont également appelés réseaux de croyance. À la même époque, Brooks a proposé la robotique basée sur le comportement, marquant la naissance du behaviorisme.

En 1997, la société technologique Deep Blue a battu le champion d'échecs Garry Kasparov avec un score de 3.5:2.5, cette victoire étant considérée comme un jalon pour l'intelligence artificielle, marquant le début d'un nouvel élan dans le développement des technologies AI.

La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage de représentations à partir des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant des RNN, GAN aux Transformers et à la Stable Diffusion, ces algorithmes façonnant ensemble cette troisième vague technologique, et c'est également l'apogée du connexionnisme.

De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution des technologies d'apprentissage profond, y compris :

  • En 2011, le système d'une entreprise technologique a battu des humains et remporté le championnat dans l'émission de quiz « Danger » (Jeopardy).

  • En 2014, Goodfellow a proposé le GAN( Réseau Génératif Antagoniste, Generative Adversarial Network), qui permet d'apprendre en faisant évoluer deux réseaux de neurones en compétition, capables de générer des photos indiscernables de vraies. En même temps, Goodfellow a également écrit un livre intitulé "Deep Learning", connu sous le nom de livre de fleurs, qui est l'un des ouvrages d'introduction importants dans le domaine de l'apprentissage profond.

  • En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue « Nature », et la proposition de cette méthode d'apprentissage profond a immédiatement suscité une énorme réaction dans le milieu académique et l'industrie.

  • En 2015, une entreprise d'intelligence artificielle a été créée, plusieurs personnalités connues ont annoncé un investissement commun de 1 milliard de dollars.

  • En 2016, AlphaGo, basé sur la technologie d'apprentissage profond, a affronté le champion du monde de Go et joueur professionnel de neuf dan, Lee Sedol, dans une bataille homme-machine, remportant la victoire avec un score total de 4 à 1.

  • En 2017, une entreprise a développé un robot humanoïde nommé Sophia, qui est considéré comme le premier robot à avoir obtenu le statut de citoyen de plein droit dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.

  • En 2017, une entreprise disposant d'un riche réservoir de talents et de technologies dans le domaine de l'intelligence artificielle a publié un article intitulé « Attention is all you need » proposant l'algorithme Transformer, et les modèles de langage à grande échelle ont commencé à apparaître.

  • En 2018, une entreprise a publié le GPT(Generative Pre-trained Transformer) construit sur l'algorithme Transformer, qui était l'un des plus grands modèles de langage à l'époque.

  • En 2018, une équipe d'une entreprise a publié AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un énorme jalon de progrès dans le domaine de l'intelligence artificielle.

  • En 2019, une entreprise a publié GPT-2, ce modèle possède 1,5 milliard de paramètres.

  • En 2020, une entreprise a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a utilisé 570 Go de texte pour l'entraînement et peut atteindre des performances de pointe sur plusieurs tâches de traitement du langage naturel(, y compris la réponse à des questions, la traduction et la rédaction d'articles).

  • En 2021, une entreprise a lancé GPT-4, ce modèle possède 1,76 billion de paramètres, soit 10 fois plus que GPT-3.

  • L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application à atteindre 100 millions d'utilisateurs le plus rapidement dans l'histoire.

  • En 2024, une certaine entreprise lancera GPT-4 omni.

Nouveau Guide丨AI x Crypto : De zéro au sommet

Chaîne de valeur de l'apprentissage profond

Les modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, les grands modèles ont créé un engouement pour l'intelligence artificielle, de nombreux acteurs affluant dans ce domaine. Nous avons également constaté une explosion de la demande du marché pour les données et la puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment les chaînes d'approvisionnement et de demande sont-elles constituées, et quel est l'état actuel de l'offre et de la demande ainsi que les développements futurs.

Tout d'abord, ce que nous devons clarifier, c'est que lors de l'entraînement de grands modèles LLMs, dirigés par GPT et basés sur la technologie Transformer(, cela se divise en trois étapes.

Avant l'entraînement, étant donné qu'il est basé sur le Transformer, le convertisseur doit transformer les entrées textuelles en valeurs numériques, ce processus est appelé "Tokenization". Par la suite, ces valeurs sont appelées Token. Selon une règle empirique générale, un mot ou un caractère anglais peut être grossièrement considéré comme un Token, tandis que chaque caractère chinois peut être grossièrement considéré comme deux Tokens. C'est également l'unité de base utilisée pour évaluer GPT.

Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, comme l'exemple donné dans la première partie du rapport )X,Y(, pour rechercher les meilleurs paramètres de chaque neurone sous ce modèle, cela nécessite une grande quantité de données, et ce processus est également le plus coûteux en calcul, car il faut itérer les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données est terminé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.

Deuxième étape, le fine-tuning. Le fine-tuning consiste à utiliser un petit lot de données de très haute qualité pour entraîner le modèle. Ce changement permettra d'améliorer la qualité des sorties du modèle, car la préformation nécessite une grande quantité de données, mais beaucoup de données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité supérieure.

Troisième étape, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", dont le but est très simple : classer les résultats de sortie. Par conséquent, la mise en œuvre de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, ce modèle sera utilisé pour déterminer si la sortie de notre grand modèle est de haute qualité, permettant ainsi l'itération automatique des paramètres du grand modèle à l'aide d'un modèle de récompense. ) Cependant, il est parfois nécessaire d'avoir une participation humaine pour évaluer la qualité de la sortie du modèle (.

En résumé, lors du processus d'entraînement des grands modèles, le pré-entraînement exige une quantité de données très élevée, et la puissance de calcul GPU requise est également la plus importante, tandis que le réglage fin nécessite des données de meilleure qualité pour améliorer les paramètres. L'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises à l'aide d'un modèle de récompense pour produire des résultats de meilleure qualité.

Au cours de l'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons donné avec la fonction Y = aX + b, il y a en réalité deux neurones, X et X0. Ainsi, peu importe comment les paramètres changent, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur nature reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer plus de paramètres, ce qui permet d'ajuster davantage de données. C'est la raison pour laquelle les grands modèles produisent des miracles, et c'est également la raison pour laquelle on les appelle communément de grands modèles. Leur essence réside dans un nombre massif de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une énorme puissance de calcul.

Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, ainsi que la puissance de calcul. Ces trois éléments influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de tokens(, nous pouvons alors estimer la puissance de calcul requise à l'aide de règles empiriques générales, ce qui nous permettra d'estimer les ressources de calcul à acquérir et le temps d'entraînement nécessaire.

La puissance de calcul est généralement mesurée en Flops, ce qui représente une opération flottante. Les opérations flottantes désignent l'ensemble des opérations arithmétiques sur des valeurs non entières, telles que 2.5+3.557. Le terme "flottant" indique la capacité à inclure des décimales, tandis que FP16 représente une précision qui supporte les décimales, et FP32 est une précision plus couramment rencontrée. Selon des règles empiriques basées sur la pratique, la pré-formation de )Pre-traning( une fois ) nécessite généralement plusieurs entraînements ( d'un grand modèle, nécessitant environ 6np Flops, 6 étant considéré comme une constante de l'industrie. L'inférence ) consiste à entrer des données et à attendre la sortie du grand modèle (, divisée en deux parties : entrer n tokens, sortir.

GPT13.34%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 5
  • Reposter
  • Partager
Commentaire
0/400
CryptoSourGrapevip
· Il y a 13h
Si j'avais investi dans All in AI plus tôt, je serais peut-être déjà en train de me relaxer avec LAMB... Maintenant, je peux seulement travailler dur chaque jour.
Voir l'originalRépondre0
MEVHunterZhangvip
· Il y a 16h
Encore une fois, l'IA se fait prendre pour des cons
Voir l'originalRépondre0
SeasonedInvestorvip
· Il y a 16h
20% est un bull, non ?
Voir l'originalRépondre0
AirdropSkepticvip
· Il y a 16h
On a atteint le sommet, attendez-vous à vous faire prendre pour des cons.
Voir l'originalRépondre0
CryptoPhoenixvip
· Il y a 16h
Le bull run n'est pas loin, la renaissance de l'IA offre de l'espoir au crypto... Le marché baissier façonne l'état d'esprit, la foi ne meurt jamais.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)