生成型 AI 革命が始まりました – どのようにしてそこに到達したのでしょうか?
人工知能システムの進歩は、しばしば周期的であるように見えます。数年ごとに、コンピュータはこれまでできなかったことが突然できるようになります。AI の真の信者は、「ここにあります!」と宣言します。「汎用人工知能の時代が近づいています!」「ナンセンス!」と懐疑論者は言う。「自動運転車を覚えていますか?」
真実は通常、その中間のどこかにあります。
私たちは別のサイクルに入っており、今回は生成 AI です。メディアの見出しは人工知能の技術に関するニュースで占められていますが、まったく異なる分野の多くでも前例のない進歩が見られます。ビデオから生物学、プログラミング、執筆、翻訳などあらゆる分野で、AI は驚くべきペースで進歩しています。
なぜ今このようなことが起こっているのでしょうか?
皆さんは、AI の世界における最新の開発についてよくご存じかもしれません。受賞歴のある作品を見たり、亡くなった人々のインタビューを聞いたり、タンパク質のフォールディングにおける画期的な進歩について読んだりしたことがあるでしょう。しかし、これらの新しい AI システムは、研究室でクールなデモを作成するだけではありません。これらは、誰でも使用できる実用的なツールや真の商用製品へと急速に進化しています。
それが一度に起こったのには理由があります。すべての成果は、これまでのものよりも柔軟で強力な新しいクラスの AI モデルに基づいています。これらは最初に質問に答えたりエッセイを書いたりするなどの言語タスクに使用されたため、大規模言語モデル (LLM) と呼ばれることがよくあります。OpenAI の GPT3、Google の BERT などはすべて LLM です。
しかし、これらのモデルは非常に柔軟で適応性があります。同じ数学的構造は、コンピューター ビジョンや生物学などで非常に役立つことが証明されているため、一部の研究者は、現代の AI におけるその役割をより明確に説明するために、それらを「マスター モデル」と呼ぶようになりました。
これらの基本的なモデルはどこから来たのでしょうか、またどのようにして言語を打ち破り、今日の AI で見られるものを推進したのでしょうか?
基礎モデルの基礎
機械学習には、モデル、データ、計算という三位一体が存在します。モデルは、入力を受け取り、出力を生成するアルゴリズムです。データは、アルゴリズムがトレーニングされる例を参照します。何かを学習するには、アルゴリズムが有用な結果を生成できるように、十分な完全性を備えた十分なデータが必要です。モデルは、データの複雑さを反映するのに十分な柔軟性を備えている必要があります。そして最後に、アルゴリズムを実行するのに十分な計算能力が必要です。
最初の現代 AI 革命は 2012 年にディープラーニングによって起こり、畳み込みニューラル ネットワーク (CNN) を使用したコンピューター ビジョンの問題の解決が始まりました。CNN は視覚野と構造が似ています。これらは 1990 年代から存在していましたが、コンピューティング能力への要求が高いため、まだ実用的ではありませんでした。
しかし、2006 年に Nvidia は、GPU を汎用スーパーコンピューターとして使用できるようにするプログラミング言語 CUDA をリリースしました。2009 年、スタンフォード大学の AI 研究者は、コンピューター ビジョン アルゴリズムのトレーニングに使用されるラベル付き画像のコレクションである Imagenet を導入しました。2012 年、AlexNet は、GPU でトレーニングされた CNN と Imagenet データを組み合わせて、世界がこれまで見た中で最高の視覚的分類器を作成しました。そこからディープラーニングと人工知能が飛び出しました。
CNN、ImageNet データセット、GPU は、コンピューター ビジョンに大きな進歩をもたらした魔法の組み合わせでした。2012 年にディープラーニングへの関心がブームとなり、自動運転関連などの業界全体が誕生しました。しかし、私たちはすぐに、この世代のディープラーニングには限界があることに気づきました。CNN は視覚には優れていましたが、他の分野ではモデリングに画期的な進歩がありませんでした。大きなギャップの 1 つは、自然言語処理 (NLP)、つまり、コンピュータにコードではなく通常の人間の言語を理解させて動作させることです。
言語を理解して扱うという問題は、画像を扱うという問題とは根本的に異なります。処理言語では、順序が重要な一連の単語を処理する必要があります。猫は画像のどこにいても猫ですが、「この読者が AI について学習する」と「AI がこの読者について学習する」の間には大きな違いがあります。
最近まで、研究者はリカレント ニューラル ネットワーク (RNN) や長期短期記憶 (LSTM) などのモデルを利用して、タイムリーにデータを処理および分析していました。これらのモデルは、短いフレーズからの話し言葉など、短いシーケンスの認識には効果的でしたが、より長い文や段落では困難でした。ただ、これらのモデルの記憶力が、文を段落やエッセイに結合するときに生じるアイデアや概念の複雑さと豊かさを捉えるほど発達していないだけです。これらは、Siri や Alexa のスタイルのシンプルな音声アシスタントには最適でしたが、それ以上のものではありませんでした。
トレーニングに適切なデータを取得することもまた課題でした。ImageNet は 100,000 枚のラベル付き画像のセットであり、その作成には、主に大学院生と Amazon Mechanical Turk の従業員による多大な人間の労力が必要でした。そして、ImageNet は、実際には、英語の語彙のラベル付きデータセットを作成しようとしていたWordNetと呼ばれる古いプロジェクトにインスピレーションを受け、モデル化されました。インターネット上にはテキストが不足することはありませんが、個々の単語を超えて人間の言語を処理できるようにコンピューターをトレーニングするための意味のあるデータセットを生成するには、信じられないほど時間がかかります。また、同じデータ上の 1 つのアプリケーション用に作成したショートカットは、別のタスクには適用できない場合があります。
コメントを残す