# AI x Crypto: ゼロからピークまでAI業界は最近急速に発展しており、一部の人々からは第四次産業革命と見なされています。大規模モデルの登場は、さまざまな業界の効率を著しく向上させ、推定ではGPTは米国の作業効率を約20%向上させました。同時に、大規模モデルがもたらす汎化能力は新しいソフトウェア設計のパラダイムと見なされています。過去のソフトウェア設計は正確なコードでしたが、今では汎化された大規模モデルのフレームワークをソフトウェアに組み込むことがより一般的になっています。これにより、ソフトウェアはより良いパフォーマンスと広範なモードサポートを持つようになりました。深層学習技術は確かにAI業界に新たな繁栄の波をもたらしましたが、この熱潮は暗号通貨業界にも広がっています。本報告では、AI業界の発展の歴史、技術の分類、及び深層学習技術が業界に与える影響について詳しく探討します。それから、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流の発展状況とトレンドを深く分析します。最後に、暗号通貨とAI業界の関係について本質的に探討し、暗号通貨に関連するAI産業チェーンの構図を整理します。! [新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-7e025deb1fddcd5fa716b6f144701074)## AI業界の歴史AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能を実現する流派を発展させてきました。現代の人工知能技術は主に「機械学習」という用語を使用しており、その理念は機械がデータに依存してタスクを反復的に改善することでシステムの性能を向上させることです。主なステップはデータをアルゴリズムに入力し、データでモデルを訓練し、モデルをテストしてデプロイし、モデルを使用して自動予測タスクを完了することです。現在、機械学習には3つの主要な流派があります。それは、結合主義、記号主義、行動主義であり、それぞれは人間の神経系、思考、行動を模倣しています。! [新参者科学人気丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c)現在、神経ネットワークを代表とする結合主義が優位に立っています(、これは深層学習とも呼ばれています)。その主な理由は、このアーキテクチャが入力層と出力層を持ち、複数の隠れ層を持っているからです。一度層の数や神経元(のパラメータ)が十分に多ければ、複雑な汎用タスクに適合する十分な機会があります。データを入力することによって、神経元のパラメータを継続的に調整でき、データを何度も経た後、その神経元は最適な状態に達します(パラメータ)、これが「深さ」という言葉の由来でもあります - 十分な層数と神経元。例えば、X=2のときY=3; X=3のときY=5となる関数を構築することで簡単に理解できます。この関数がすべてのXに対応する必要がある場合、関数の次数とそのパラメータを追加し続ける必要があります。例えば、Y = 2X -1という条件を満たす関数を構築できますが、もしデータの一つがX=2、Y=11であった場合は、これらの三つのデータポイントに適した関数を再構築する必要があります。GPUを使用して暴力的に解決したところ、Y = X2 -3X +5が比較的適していることが分かりました。ただし、データと完全に一致する必要はなく、バランスを遵守し、概ね類似した出力であれば十分です。ここでX2、X、X0は異なるニューロンを表し、1、-3、5はそのパラメータです。この時、大量のデータをニューラルネットワークに入力すると、ニューラルユニットを増やしたり、パラメータを反復して新しいデータにフィットさせることができます。こうすることで、すべてのデータにフィットさせることができます。神経ネットワークに基づく深層学習技術には、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化があり、最終的にはGPTなどの現代的大規模モデルで使用されるTransformer技術へと進化しました。Transformer技術は神経ネットワークの一つの進化方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモダリティ(のデータを対応する数値にエンコードして表現します。それから神経ネットワークに入力されることで、神経ネットワークはあらゆる種類のデータをフィッティングできるようになり、すなわちマルチモーダルを実現します。AIの発展は3つの技術的波を経てきました。最初の波は20世紀60年代で、これはAI技術が提唱されてから10年後のことです。この波は記号主義技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはいくつかの機関が完成させたDENRAL専門家システムで、このシステムは非常に強力な化学知識を持ち、質問を通じて推論を行い、化学専門家と同じ答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの結合と見なすことができます。専門家システムの後、1990年代に科学者たちはベイジアンネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提唱し、行動主義の誕生を示しました。1997年、テクノロジー企業のディープブルーが3.5対2.5でチェスチャンピオンのカスパロフ)Kasparov(を打ち負かした。この勝利は人工知能の重要なマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えた。第三次AI技術の波は2006年に起こりました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioが、人工神経ネットワークを基盤としたデータの表現学習アルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerやStable Diffusionに至るまで、これらのアルゴリズムはこの第三の技術波を形成し、連結主義の最盛期でもあります。多くの象徴的な出来事は、深層学習技術の探求と進化とともに次第に浮上してきた。これには、以下が含まれる:* 2011年、あるテクノロジー会社のシステムが『危険な境界』)Jeopardy(のクイズ番組で人間に勝利し、チャンピオンになりました。* 2014年、GoodfellowはGAN)生成的対抗ネットワーク、Generative Adversarial Network(を提案し、二つの神経ネットワークが相互に競い合うことによって学習し、リアルに見える写真を生成することができるようになりました。また、Goodfellowは「Deep Learning」という本を書き、これは「花本」と呼ばれ、深層学習分野の重要な入門書の一つとされています。* 2015年、ヒントンらは『ネイチャー』誌でディープラーニングアルゴリズムを提案し、このディープラーニング手法の提案は、学術界や産業界で直ちに大きな反響を呼びました。* 2015年、ある人工知能会社が設立され、多くの著名人が共同で10億ドルの出資を発表しました。* 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである職業九段棋士の李世石と囲碁の人間対機械戦を行い、4対1の総スコアで勝利しました。* 2017年に、一社が開発した人型ロボットソフィアは、歴史上初めて一等市民の地位を得たロボットとされ、豊かな表情や人間の言語理解能力を備えています。※2017年、人工知能の分野で豊富な才能と技術力を持つ企業が、Transformerアルゴリズムを提案する論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。※2018年、ある企業が、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative事前学習済みTransformer(をリリースしました。* 2018年、ある企業のチームは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測が可能であり、人工知能分野の大きな進歩の象徴と見なされています。* 2019年、ある会社がGPT-2を発表しました。このモデルは15億のパラメータを持っています。* 2020年、ある会社が開発したGPT-3は、1,750億のパラメータを持ち、以前のバージョンであるGPT-2よりも100倍高く、570GBのテキストを使用してトレーニングされ、複数のNLP)自然言語処理(タスク)の質問応答、翻訳、記事執筆(において最先端の性能を達成します。* 2021年、ある会社がGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。* 2023年1月にGPT-4モデルに基づくChatGPTアプリケーションが発表され、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに到達したアプリケーションとなりました。* 2024年、ある会社がGPT-4オムニを発表します。! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/social/moments-0c9bdea33a39a2c07d1f06760ed7e804(## ディープラーニング産業チェーン現在、大規模モデル言語に使用されているのは、すべて神経ネットワークに基づく深層学習の方法です。GPTを筆頭に、大規模モデルは人工知能のブームを引き起こし、多くのプレイヤーがこの分野に参入しました。また、私たちは市場がデータと計算能力の需要を大量に発生させていることを発見しました。したがって、この報告のこの部分では、深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界において、その上下流はどのように構成されているのか、また上下流の現状と供給需要の関係、将来の発展はどのようになるのかを探ります。まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs)の大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。トレーニングの前に、Transformerに基づいているため、コンバーターはテキスト入力を数値に変換する必要があります。このプロセスは「トークナイゼーション」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則に基づいて、英単語または文字は大まかに1つのトークンと見なされ、各漢字はおおよそ2つのトークンと見なされます。これがGPTの価格計算で使用される基本単位でもあります。第一ステップ、事前トレーニング。入力層に十分なデータペアを与えることで、報告の最初の部分で例示された)X,Y(のように、モデルの各ニューロンの最適なパラメータを探し出します。この時、大量のデータが必要であり、このプロセスは最も計算リソースを消費するプロセスでもあります。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復する必要があるからです。一批のデータペアのトレーニングが完了した後、通常は同じデータセットを使用して二次トレーニングを行い、パラメータを反復します。第二歩、微調整。微調整は、少量ですが非常に高品質なデータのバッチを与えてモデルを訓練することです。このような変更により、モデルの出力の質が向上します。なぜなら、事前訓練には大量のデータが必要ですが、多くのデータにはエラーや低品質が存在する可能性があるからです。微調整のステップは、優れたデータを通じてモデルの品質を向上させることができます。第三ステップ、強化学習。まず、全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランク付けすることです。したがって、このモデルを実現するのは比較的簡単であり、ビジネスシーンが比較的垂直であるためです。その後、このモデルを使用して、大モデルの出力が高品質かどうかを判断します。こうすることで、報酬モデルを使用して大モデルのパラメータを自動的に反復することができます。)しかし、時には人間がモデルの出力品質を評価するために関与する必要もあります。(簡単に言うと、大きなモデルのトレーニングプロセスでは、事前トレーニングはデータ量に非常に高い要求を持ち、必要とされるGPU計算力も最も多いです。一方、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的にイテレーションして、より高品質な結果を出力することができます。トレーニングの過程で、パラメータが多ければ多いほど、その一般化能力の限界は高くなります。例えば、関数の例で言うと、Y = aX + bの場合、実際には2つのニューロンXとX0が存在します。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、その本質は依然として1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復処理できるようになり、より多くのデータにフィットすることができます。これが、大規模モデルが奇跡をもたらす理由であり、またそれが「大モデル」という一般的な名称の理由でもあります。本質的には、大量のニューロンとパラメータ、大量のデータ、そして大量の計算能力が必要です。したがって、大規模モデルのパフォーマンスに影響を与える主な要因は、パラメータの数、データの量と質、計算能力の3つであり、これら3つが共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークン数で計算すると仮定すると、一般的な経験則を通じて必要な計算量を計算できるため、必要な計算能力の大まかな購入状況とトレーニング時間を予測することができます。計算能力は一般的にFlopsを基本単位として表され、これは1回の浮動小数点演算を意味します。浮動小数点演算は整数ではない数値の加減乗除の総称であり、例えば2.5+3.557のように、小数点を持つことを表します。また、FP16は小数点をサポートする精度を表し、FP32はより一般的に使用される精度です。実践に基づく経験則によれば、事前学習(Pre-traning)は1回(一般的に大規模モデルを複数回訓練する必要があり、約6np Flopsが必要とされます。6は業界の定数と呼ばれています。一方、推論)Inferenceは、データを入力し、大規模モデルの出力を待つプロセス(であり、これは2つの部分に分かれます。n個のトークンを入力し、出力します。
AIと暗号資産業界のデプスな融合 大規模モデルが技術の新たな波を牽引
AI x Crypto: ゼロからピークまで
AI業界は最近急速に発展しており、一部の人々からは第四次産業革命と見なされています。大規模モデルの登場は、さまざまな業界の効率を著しく向上させ、推定ではGPTは米国の作業効率を約20%向上させました。同時に、大規模モデルがもたらす汎化能力は新しいソフトウェア設計のパラダイムと見なされています。過去のソフトウェア設計は正確なコードでしたが、今では汎化された大規模モデルのフレームワークをソフトウェアに組み込むことがより一般的になっています。これにより、ソフトウェアはより良いパフォーマンスと広範なモードサポートを持つようになりました。深層学習技術は確かにAI業界に新たな繁栄の波をもたらしましたが、この熱潮は暗号通貨業界にも広がっています。
本報告では、AI業界の発展の歴史、技術の分類、及び深層学習技術が業界に与える影響について詳しく探討します。それから、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流の発展状況とトレンドを深く分析します。最後に、暗号通貨とAI業界の関係について本質的に探討し、暗号通貨に関連するAI産業チェーンの構図を整理します。
! 新人科学丨AI×暗号:ゼロからピークまで
AI業界の歴史
AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能を実現する流派を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しており、その理念は機械がデータに依存してタスクを反復的に改善することでシステムの性能を向上させることです。主なステップはデータをアルゴリズムに入力し、データでモデルを訓練し、モデルをテストしてデプロイし、モデルを使用して自動予測タスクを完了することです。
現在、機械学習には3つの主要な流派があります。それは、結合主義、記号主義、行動主義であり、それぞれは人間の神経系、思考、行動を模倣しています。
! 新参者科学人気丨AI×暗号:ゼロからピークまで
現在、神経ネットワークを代表とする結合主義が優位に立っています(、これは深層学習とも呼ばれています)。その主な理由は、このアーキテクチャが入力層と出力層を持ち、複数の隠れ層を持っているからです。一度層の数や神経元(のパラメータ)が十分に多ければ、複雑な汎用タスクに適合する十分な機会があります。データを入力することによって、神経元のパラメータを継続的に調整でき、データを何度も経た後、その神経元は最適な状態に達します(パラメータ)、これが「深さ」という言葉の由来でもあります - 十分な層数と神経元。
例えば、X=2のときY=3; X=3のときY=5となる関数を構築することで簡単に理解できます。この関数がすべてのXに対応する必要がある場合、関数の次数とそのパラメータを追加し続ける必要があります。例えば、Y = 2X -1という条件を満たす関数を構築できますが、もしデータの一つがX=2、Y=11であった場合は、これらの三つのデータポイントに適した関数を再構築する必要があります。GPUを使用して暴力的に解決したところ、Y = X2 -3X +5が比較的適していることが分かりました。ただし、データと完全に一致する必要はなく、バランスを遵守し、概ね類似した出力であれば十分です。ここでX2、X、X0は異なるニューロンを表し、1、-3、5はそのパラメータです。
この時、大量のデータをニューラルネットワークに入力すると、ニューラルユニットを増やしたり、パラメータを反復して新しいデータにフィットさせることができます。こうすることで、すべてのデータにフィットさせることができます。
神経ネットワークに基づく深層学習技術には、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化があり、最終的にはGPTなどの現代的大規模モデルで使用されるTransformer技術へと進化しました。Transformer技術は神経ネットワークの一つの進化方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモダリティ(のデータを対応する数値にエンコードして表現します。それから神経ネットワークに入力されることで、神経ネットワークはあらゆる種類のデータをフィッティングできるようになり、すなわちマルチモーダルを実現します。
AIの発展は3つの技術的波を経てきました。最初の波は20世紀60年代で、これはAI技術が提唱されてから10年後のことです。この波は記号主義技術の発展によって引き起こされ、一般的な自然言語処理や人間とコンピュータの対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはいくつかの機関が完成させたDENRAL専門家システムで、このシステムは非常に強力な化学知識を持ち、質問を通じて推論を行い、化学専門家と同じ答えを生成します。この化学専門家システムは、化学知識ベースと推論システムの結合と見なすことができます。
専門家システムの後、1990年代に科学者たちはベイジアンネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提唱し、行動主義の誕生を示しました。
1997年、テクノロジー企業のディープブルーが3.5対2.5でチェスチャンピオンのカスパロフ)Kasparov(を打ち負かした。この勝利は人工知能の重要なマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えた。
第三次AI技術の波は2006年に起こりました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、Yoshua Bengioが、人工神経ネットワークを基盤としたデータの表現学習アルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerやStable Diffusionに至るまで、これらのアルゴリズムはこの第三の技術波を形成し、連結主義の最盛期でもあります。
多くの象徴的な出来事は、深層学習技術の探求と進化とともに次第に浮上してきた。これには、以下が含まれる:
2011年、あるテクノロジー会社のシステムが『危険な境界』)Jeopardy(のクイズ番組で人間に勝利し、チャンピオンになりました。
2014年、GoodfellowはGAN)生成的対抗ネットワーク、Generative Adversarial Network(を提案し、二つの神経ネットワークが相互に競い合うことによって学習し、リアルに見える写真を生成することができるようになりました。また、Goodfellowは「Deep Learning」という本を書き、これは「花本」と呼ばれ、深層学習分野の重要な入門書の一つとされています。
2015年、ヒントンらは『ネイチャー』誌でディープラーニングアルゴリズムを提案し、このディープラーニング手法の提案は、学術界や産業界で直ちに大きな反響を呼びました。
2015年、ある人工知能会社が設立され、多くの著名人が共同で10億ドルの出資を発表しました。
2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンである職業九段棋士の李世石と囲碁の人間対機械戦を行い、4対1の総スコアで勝利しました。
2017年に、一社が開発した人型ロボットソフィアは、歴史上初めて一等市民の地位を得たロボットとされ、豊かな表情や人間の言語理解能力を備えています。
※2017年、人工知能の分野で豊富な才能と技術力を持つ企業が、Transformerアルゴリズムを提案する論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。
※2018年、ある企業が、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative事前学習済みTransformer(をリリースしました。
2018年、ある企業のチームは深層学習に基づくAlphaGoを発表し、タンパク質の構造予測が可能であり、人工知能分野の大きな進歩の象徴と見なされています。
2019年、ある会社がGPT-2を発表しました。このモデルは15億のパラメータを持っています。
2020年、ある会社が開発したGPT-3は、1,750億のパラメータを持ち、以前のバージョンであるGPT-2よりも100倍高く、570GBのテキストを使用してトレーニングされ、複数のNLP)自然言語処理(タスク)の質問応答、翻訳、記事執筆(において最先端の性能を達成します。
2021年、ある会社がGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。
2023年1月にGPT-4モデルに基づくChatGPTアプリケーションが発表され、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに到達したアプリケーションとなりました。
2024年、ある会社がGPT-4オムニを発表します。
! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
ディープラーニング産業チェーン
現在、大規模モデル言語に使用されているのは、すべて神経ネットワークに基づく深層学習の方法です。GPTを筆頭に、大規模モデルは人工知能のブームを引き起こし、多くのプレイヤーがこの分野に参入しました。また、私たちは市場がデータと計算能力の需要を大量に発生させていることを発見しました。したがって、この報告のこの部分では、深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界において、その上下流はどのように構成されているのか、また上下流の現状と供給需要の関係、将来の発展はどのようになるのかを探ります。
まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs)の大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。
トレーニングの前に、Transformerに基づいているため、コンバーターはテキスト入力を数値に変換する必要があります。このプロセスは「トークナイゼーション」と呼ばれ、その後、これらの数値はトークンと呼ばれます。一般的な経験則に基づいて、英単語または文字は大まかに1つのトークンと見なされ、各漢字はおおよそ2つのトークンと見なされます。これがGPTの価格計算で使用される基本単位でもあります。
第一ステップ、事前トレーニング。入力層に十分なデータペアを与えることで、報告の最初の部分で例示された)X,Y(のように、モデルの各ニューロンの最適なパラメータを探し出します。この時、大量のデータが必要であり、このプロセスは最も計算リソースを消費するプロセスでもあります。なぜなら、ニューロンがさまざまなパラメータを試すために繰り返し反復する必要があるからです。一批のデータペアのトレーニングが完了した後、通常は同じデータセットを使用して二次トレーニングを行い、パラメータを反復します。
第二歩、微調整。微調整は、少量ですが非常に高品質なデータのバッチを与えてモデルを訓練することです。このような変更により、モデルの出力の質が向上します。なぜなら、事前訓練には大量のデータが必要ですが、多くのデータにはエラーや低品質が存在する可能性があるからです。微調整のステップは、優れたデータを通じてモデルの品質を向上させることができます。
第三ステップ、強化学習。まず、全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果をランク付けすることです。したがって、このモデルを実現するのは比較的簡単であり、ビジネスシーンが比較的垂直であるためです。その後、このモデルを使用して、大モデルの出力が高品質かどうかを判断します。こうすることで、報酬モデルを使用して大モデルのパラメータを自動的に反復することができます。)しかし、時には人間がモデルの出力品質を評価するために関与する必要もあります。(
簡単に言うと、大きなモデルのトレーニングプロセスでは、事前トレーニングはデータ量に非常に高い要求を持ち、必要とされるGPU計算力も最も多いです。一方、ファインチューニングはパラメータを改善するためにより高品質なデータを必要とし、強化学習は報酬モデルを通じてパラメータを反復的にイテレーションして、より高品質な結果を出力することができます。
トレーニングの過程で、パラメータが多ければ多いほど、その一般化能力の限界は高くなります。例えば、関数の例で言うと、Y = aX + bの場合、実際には2つのニューロンXとX0が存在します。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、その本質は依然として1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復処理できるようになり、より多くのデータにフィットすることができます。これが、大規模モデルが奇跡をもたらす理由であり、またそれが「大モデル」という一般的な名称の理由でもあります。本質的には、大量のニューロンとパラメータ、大量のデータ、そして大量の計算能力が必要です。
したがって、大規模モデルのパフォーマンスに影響を与える主な要因は、パラメータの数、データの量と質、計算能力の3つであり、これら3つが共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークン数で計算すると仮定すると、一般的な経験則を通じて必要な計算量を計算できるため、必要な計算能力の大まかな購入状況とトレーニング時間を予測することができます。
計算能力は一般的にFlopsを基本単位として表され、これは1回の浮動小数点演算を意味します。浮動小数点演算は整数ではない数値の加減乗除の総称であり、例えば2.5+3.557のように、小数点を持つことを表します。また、FP16は小数点をサポートする精度を表し、FP32はより一般的に使用される精度です。実践に基づく経験則によれば、事前学習(Pre-traning)は1回(一般的に大規模モデルを複数回訓練する必要があり、約6np Flopsが必要とされます。6は業界の定数と呼ばれています。一方、推論)Inferenceは、データを入力し、大規模モデルの出力を待つプロセス(であり、これは2つの部分に分かれます。n個のトークンを入力し、出力します。