読者諸君の皆様、「GPT-3」ってご存じですか?昨年来から、IT業界の中では話題となっているOpen AI社が提供しているNLP(Natural Language Processing)自然言語AIの名前です。GPT-3は(Generative Pre-Training -3)の略で、番号でお気付きかと思いますが、以前のバージョンでGPT-1やGPT-2とありました。AI(人工知能)を使って、膨大なパラメータ(約1750億個)を持ち、インタネット上にある、ありとあらゆるデータセットから情報を収集し、自然な言葉で記事の書き起こしや文書を生成してくれるソフトウェアです。あまりに自然な文章を作れてしまうので、一般公開が制限されてたと言われる、いわく付きのAIソフトウェアです。2019年頃に出た頃には、Deep Fakeならぬ、有名人等の作文パターンを偽装した記事が出るのではと危険視されたこともあったのが記憶にあります。
どんなことが、できるのか?
以下に一部、SNSに共有されたGPT-3が出来ることの事例を挙げます。
◆ アプリケーションを作れる
◆ 検索エンジンを作れる
◆ 音楽の楽譜を作れる
◆ 事業企画のアイディアを作れる
ここで挙げているのは一例ですが、学習を基に、いくつかの単語や文書を入力すると、次にでてくる適切な文書を予測して提示します(いわゆる、プロンプトプログラミングと呼ばれているそうです)。完璧ではないにしろ、GPT-3が書いた記事を読むと、AIが書いたものとは思えない内容で、人が書いたのと間違えるほどで、まだ発展途上ですが、色々とその応用に期待が集まっています。
そんな中、Microsoftが毎年開催しているソフトウェア開発者向けカンファレンス「Build」の最大のハイライトは、Deep Learning(深層学習)を利用して自然な言葉でMS Officeアプリケーションのソースコードを生成するツールが発表されたことでした。
https://i0.wp.com/bdtechtalks.com/wp-content/uploads/2021/05/GPT-3-code-generation.gif
Above: Microsoft uses GPT-3 to translate natural language commands to data queries
Image Credit: Khari Johnson / VentureBeat
そうなのです。このツールは、OpenAIの「GPT-3」を利用したもので、一部の開発者や研究者、スタートアップ企業を対象に、有料のアプリケーション・プログラミング・インターフェース(API)で提供されており、多くの開発者が言語モデルの興味深い革新的な使い方が発見されています。
マイクロソフトが初めてGPT-3を搭載した製品を発表したことは、このGPT-3を代表するNLPビジネスや、OpenAIとの関係を深めているマイクロソフトの将来について、ひとつの大きなマイルストーンではないかと考えます。
しかし、GPT-3を利用して収益性の高い持続可能なビジネスを構築することは、依然として困難な状況で、このブレークスルーとも捉えられる技術に真っ先にOpen AI社に出資したのがMicrosoft社です。同じく、ビックテックの代表格であるGoogleは、このNLPの領域において、独自の開発研究を進め、先のGoogle IOイベントにてLaMDAという会話型AIのお披露目をしました。LaMDA(Language Model for Dialogue Applications)は、検索エンジンのモデルとなるBERTや後続のGPT-3と同じくTransformerアーキテクチャに基づいて設計されており、画期的なのは、他とは違い、話題を定めないで会話するモデル(Open Ended Model)で難易度の高いAIによる雑談を可能としている。我々は日常的に生活の中で雑談するが、これを自然言語モデルで可能とし、まるで映画のシーンのようにAIが自然に会話できることを、その研究成果として発表しました。読者の方々も既にGPT-3をフォローされている方は、いち早くご存じのことかと思うので、その背景や技術の解説については、ここでは割愛します。
Bay Area Newsletterでも取り上げられましたが、これはMicrosoft社がOpen AI社を取り込み、言ってみれば、囲い込んだクローズドなスポンサーシップにより成し得た商用的に画期的なことなのか、それとも、これから起こり得るであろうオープンで開かれたイノベーションを阻害したものなのか、IT業界で議論が盛んに行われています。
クローズドかオープン、どちらが望ましいのか?
GPT-3のようにDeep Learning(深層学習)モデルを利用したソフトウェアは、より良い処理結果を出すために微調整と膨大なデータセットを活用した「トレーニング」が必要です。一般的にDeep Learningモデルを微調整する理由は2つあります。1つ目は、モデルが目的のタスクを望ましい精度で実行できないため、その特定のタスクの例でモデルをトレーニングして微調整する必要があります。2つ目は、モデルは目的のタスクを実行できますが、計算効率が悪く、GPT-3のように1750億個のパラメータを持つ非常に大規模なソフトウェアは、その実行にかかるコストは膨大です。このような理由から、OpenAI単独では、GPT-3の既存市場への参入や新たな市場の創出は難しいと判断したと思われ、2019年7月、Microsoft社により10億ドルの出資を受け、その見返りにMicrosoft社がソースコードと知財に対する権利を得ました。Microsoft社は、この独占権を得ることにより、GPT-3のモデルを、より商用に最適化されたモデルで実行できるようになり、正確性よりも、実用性に特化した形にすることを目指し、今回のようにPower FXプログラミングに特化したバージョンをリリースしました。
ただし、一社のみが、このGTP-3の技術を独占し、他社はGTP-3のAPIを利用できるものの、制約された形で、発展が望めるのか、議論となっています。同「Build 」カンファレンスにおいて、GPT-3の生みの親であるSal Altman氏は1億ドル規模のファンド「OpenAI Startup Fund」を設立し、このファンドを通じて初期段階のAI企業に投資することを宣言しました。開かれたソフトウェアを、と謳っていますが、「将来のOpenAIシステムへの早期アクセス、我々のチームからのサポート、MS Azureでのクレジットを得る利点がある」と言い、これがMicrosoft社の囲い込みに見えてしまうのは、私だけではないと思います。Open AI社は、その名前の通り、オープンな技術により、社会や人々の生活に貢献していくという理念がありながら、クローズドとなっているのが現状です。
ここに来て、IT業界にて、この囲い込みに対する対抗馬が出てきました。
「AI(人工知能)が全人類に恩恵をもたらすこと」を使命とする企業が、あろうことか、そのシステムをオープンに活用することを許さないということに意義を唱えるとして、"AI研究のオープンソース化に取り組む研究者の集合体 "であるEleutherAIのチームはGPT-3-175Bに匹敵するシステムの構築を目指して、誰もが使えるバージョンを提供しようとしています。
EleutherAIプロジェクト:AI研究のオープンソース化
このプロジェクトは、2020年7月に、OpenAIのGPTシリーズのモデルを研究・再現する目的で誕生しました。GPT-3-175B(1750億個を指す)を再現させ、Transformerアーキテクチャを使った自然言語モデルで「OpenAI-Microsoftの独占を破る」ことです。
EleutherAIプロジェクトは、一般の人々に自由でオープンなAIソースを共有するために1)GPT-Neo:巨大なモデルを学習するためのコードベース、2)The Pile:GitHubやPubMed等のデータセットからキュレーションされた大規模(825GB)なデータセット、そして3)GPT-J:GPT-3に対抗しうるモデル、という3つの主要な要素で構成されています。
注目するのは、このGPT-Jですが、研究が進めば、GPT-3をも凌ぐ性能を出せる、真にオープン化されたGPT-Jの対抗馬に成り得ることです。現在、プログラミングコードを書く出すタスクではGPT-175Bよりも優れた結果を出せるのですが、他のタスクでは、まだ遠く及ばない状況で、これからの研究次第では、更に性能が伸びていく可能性を秘めています。アクセスに制約を課し、クローズドにするのであれば、それ以上のものを作ってしまえ、と言うソフトウェアのオープン化・民主化魂を感じており、開発者の信念とエネルギーを強く感じます。
まとめ
GPT-3の登場により、開発が活性化し、自然言語処理(NLP)が今後、私たちの生活を大きく変えていくかもしれません。その背景には、プラットフォーム化を見据えたビッグテック各社の動きが見え隠れしており、元々オープンソフトウェアとして開発されたGPT-3を巻き込み、オープンとクローズドの戦いに発展しているのではと感じております。GPT-Jのようにオープンな環境を提供による発展か、または、商用に特化し資金源も有利に早期に実用化が容易になるであろうクローズドか、多くの議論が起こっています。
皆様、どちらが有利で、あるべき姿だと思いますか?
GPT-3、GPT-J、開発元であるOpenAI社を取り込んだMicrosoft社、また、GoogleのLaMDA等、その動きに今後とも注目していきたいと思います。
中国勢のWu Dao 2.0についての記載を忘れていました。
6月初旬にBAAI(Beijing Academy of AI)にて発表されたWu Dao 2.0は、パラメータ数で実にGPT-3の10倍である1.75兆という大規模モデルを発表しました。
世界トップで、Multi Modalモデルで、OpenAI社の画像認識モデルである「DALL・E」や「CLIP」を凌駕する性能を誇り、感情表現も対応できる(EQ)と一部では言われています。
ご興味のある方は、以下、詳細をご覧ください。
https://towardsdatascience.com/gpt-3-scared-you-meet-wu-dao-2-0-a-monster-of-1-75-trillion-parameters-832cd83db484