Bay Area Tech Blog #36

次世代インフラを支える半導体メーカーの戦い

Dec 01, 2021

macro photography of black circuit board

現在、世界的な半導体不足が、自動車生産の減産だけに止まらず、原料不足や燃料高騰などに伴うサプライチェーンの混乱とも相まって、あらゆる産業において非常に大きな影響を及ぼしています。半導体と言ってもその種類や用途は様々ですが、ここではネットワークやサーバなどの「データセンターインフラ」に使用される各種半導体の動向に注目してみました。

ムーアの法則はまだ終焉していない

まず、誰もが耳にしたことがある「ムーアの法則」とは何か。Intelを創業した1人であるゴードン・ムーア氏が1965年に提唱（フェアチャイルドセミコンダクター社在籍時、Intel創業は1968年）し、1975年に「半導体の集積度は2年ごとに2倍になる」として広く知れ渡るようになったものである。しかし、2000年代に入って半導体の集積度の向上は停滞し、ムーアの法則は限界を迎えたと言われるようになって久しい。
このような中、Intelの現CEO パット・ゲルシンガー氏は、10月末に開催されたイベント Intel Innovation 2021 の中で、ムーアの法則を維持もしくは凌駕するとし、5年以内に「Zettaスケール」に到達すると語った。Zettaスケールとは、スーパーコンピュータの性能を表すFlops（1秒あたりの浮動小数点演算）で言えば、1,000 exa flops（百京）＝1 zetta flops（十垓）に相当するというスケールである。あまりにも桁が大きすぎて全くピンとこないが、現在世界一のスーパーコンピュータ「富岳」（Arm搭載）の性能が 422 peta flops（千兆）で、ようやくこれからExaスケールの開発競争に入ってくるという段階であり、2020年の全世界に存在するデジタルデータの総量が 59 zetaバイトだと聞くと、その凄さが何となく分かる。果たして、このような進化が可能なのかと若干疑問を感じてしまうが、新素材による1nm以下の微細化と3次元にトランジスタを何層にも積載していくことで積層化が可能になってきており、専門家の間でも限界を克服しつつあるという認識にあるようだ。そして、これらを「ムーアの法則2.0」と呼ぶ人達もいるようです。*

DPU/IPU がデータセンターアーキテクチャーを変革する

クラウドやデータセンターのアーキテクチャにおいて、重要な役割を果たす半導体チップとして、DPU（Data processing units）と IPU（Infrastructure processing units）が登場してきている。DPUとは、かつて「SmartNIC」と同義語で語られていたものですが、従来CPUで処理されていたネットワーク制御、ストレージ管理、セキュリティなどのワークロードをCPUからオフロードさせることで、より多くのアプリケーションを効率的に実行できるようにするものです。このようなワークロードが、CPU処理の22％〜80％を消費していると言われており、これをオフロードすることができれば、クラウド事業者やネットワーク機器ベンダー、それを利用する企業やユーザーに大きなメリットをもたらすことになる。
DPUは、NVIDIAのほか、Fungible、Pensando、Nebulonなどの新興サプライヤーも登場してきて、急速に発展していきています。Intelは、業界でDPUと呼ぶものをあえて独自にIPUと呼んでいるが、基本的には同様のチップを指している。

NVIDIA BlueField-3

NVIDIAのDPUは、2019年に買収したMellanoxの技術がベースになっている。既にBlueField-2が出荷されていたが、11月に「BlueField-3」が発表された。BlueField-3は、主に次世代の高速ネットワークとゼロトラストセキュリティ環境を構築するプラットフォームに活用されます。
BlueField-3と400GbpsのInfinibandスイッチが搭載された「Quantum-2」と呼ぶ高速ネットワークプラットフォームがリリースされ、前世代と比較してネットワーク速度は2倍、AIアプリケーションの処理能力は32倍に向上している。消費電力低減やポート収容率も高く、マルチテナントで且つパフォーマンス分離したスーパーコンピューシングサービスを提供するクラウド事業者には不可欠な存在になりそうだ。

NVIDIAは、BlueField に加えて、DOCA、MorpheusサイバーセキュリティAIフレームワークというテクノロジーを組み合わせて、ゼロトラストセキュリティプラットフォームを提供している。
DOCA（Data Center Infrastructure-on-a-Chip Architecture）は、BlueField のためのプログラミングフレームワークで、SDKと関連ソフトウェアの実行環境をパッケージとしてAPI提供され、アプリケーションをインフラから分離し、より強固なファイアウォール開発を支援します。さらに、MorpheusはAIベースのセキュリティフレームワークで、開発者向けのDevOpsツールとして提供されます。ディープラーニングを使用して、行動パターンやID、位置情報などを常時監視して脅威検知をすることが可能になる。BlueField とこれら2つのフレームワークを使用することで、従来より600倍も高速なセキュリティ性能を発揮することが可能だという。

NVIDIA DOCA (Data Center Infrastructure-on-a-Chip Architecture)

すでに複数のセキュリティベンダーが、NVIDIAとパートナーシップを結んでおり、Juniper Networksは、BlueField とDOCAを全面的に採用して開発を行なっている。PaloAlto NetworksもBlueField専用に設計された次世代バーチャルファイアウォールをリリースしており、従来のファイアウォールの約5倍のパフォーマンスを実現するという。

Intel Mount Evans

IntelのIPUは「Mount Evans」と呼ばれ、Google とのパートナーシップにより設計されたIntel初のASIC（特定用途向け集積回路）で、Google Cloud などのデータセンター利用に焦点を当てている。他のDPUと同様に特定のワークロードをCPUからオフロードさせ、高速化を実現します。最大4個のXeon CPUと2019年に買収したBarefoot Networksが開発したパケット処理技術を組み合わせて、高いパフォーマンスを実現するという。また、オープンソースのIPDK（インフラストラクチャープログラマ開発キット）をサポートし、開発者が容易にアクセスできるようプログラマブルな設計としている。
パット・ゲルシンガーCEOは、VMWareのCEO時代に「Project Monterey」にて、NVIDIA、Pensando、Intel と共にESXiをSmartNICで実行できるようにし、仮想化された分散環境においても特定のタスクをオフロードし、セキュアで高速なインフラ構築の実現を牽引してきました経緯がある。Intelに返り咲いたパット・ゲルシンガーは、今回のGoogleとのパートナーシップを元に、DPU分野においても近年のIntelの停滞感を払拭していきたいに違いない。

Pensando Elba

PensandoのDPU「Elba」は、Aruba Networks のデータセンタースイッチCX1000に組み込まれて登場しました。スイッチにDPUが搭載されることで、ファイアウォール、NAT、DDoS、暗号化、負荷分散、テレメトリなどの幅広い機能が提供され、且つDPUにてオフロード処理されるため、従来の10倍のパフォーマンスと1,000倍のスケーラビリティを3分の1のコストで実現するという。特にマイクロサービス化やハイブリッドクラウドが進んだ分散ネットワーク環境下では、サービス間（東西間）のトラフィック処理やセキュリティ保護が重要であるため、ネットワークファブリックまたはエッジに近い場所でアプリケーション処理されることは理にかなっていると言える。かつて、スイッチに同様のセキュリティ機能を提供する物は存在したが、単純にアプライアンスを移植したものやソフトウェアで実現しようとしていたため、コストとパフォーマンスが犠牲になっていた。これが、DPUの登場で一気に解決したという印象だ。
Pendandoについてもう少し触れておくと、同社はCisco Systemsの元CEOのジョン・チェンバースが会長を務め、MPLSを開発した元Ciscoの優秀なベテランエンジニアによって設立したスタートアップです。数年前からSmartNIC（DPU）を使用して独断先行しているAWSに対して、競合する存在になることを公言し、1年ほど前からHPEのサーバー群にSmartNICを提供してきている。ArubaがHPEの子会社であることから、今回のスイッチへのPensandoを採用は自然な展開とも言える。

Mataのデータセンターに採用された注目勢力

Facebook改め、Metaのデータセンターに対して、チップの採用が発表された注目の2社を取り上げる。
まずは、AMDだが近年データセンター事業を中心にシェアを大きく伸ばしており、Metaのデータセンターへの採用が発表されたことで、株価は一時13%も急伸した。
もう1社は、チップメーカーとしてのCisco Systems である。ネットワーク機器の最大手でありながら、2019年に独自のチップを販売することを発表して業界に驚きを与えたが、11月にそのチップがMetaのスイッチに搭載されることが発表された。

AMD EPYC

AMDは、サーバー用CPUの「EPYC」の売上を前年の2倍以上に伸ばし、市場シェアを10％にまで拡大している。AzureやGoogle Cloud、Netflixなどの多くの大型データセンターでEPYCの採用が続いている中、今回Metaのデータセンターへの採用が発表され、その存在感が増してきている。Metaには、第3世代のEPYC CPUをベースにパフォーマンスと電力効率を追求したカスタムチップが提供されるようだ。
これは、コードネーム「Milan-X」と呼ばれ、第3世代のEPYCに「3D V-Cache」というキャッシュメモリを3次元に積載するパッケージング技術が採用され、構造解析や流体力学などの計算量の多い処理に対して、従来より50％以上のパフォーマンス向上を実現させるという。実際にMicrosoft Azure のMilan-X を使ったHPCサービスでのベンチマーク結果が公表され、その性能の高さを証明した。2022年1Qには、Cisco、Dell、Lenovo、HPE などから、Milan-Xを搭載したサーバーの発売が予定されている。

さらに、AMDはHPC分野においても存在感が際立っている。世界のスーパーコンピュータをランク付けするTop500の上位10位のうち、4つにAMDのEPYCが採用されている。今回新たに発表されたGPU「Instinct MI200」は、TSMCの6nmプロセスで製造された世界初のマルチチップGPUというもので、最も先進的なGPUとして注目されている。競合するNVIDIAのA100 GPUと比較して4.9倍のパフォーマンスを実現しているという。新たにテネシー州のオークリッジ国立研究所に導入されるスーパーコンピュータ「Frontier」にMI200が搭載される予定で、米国で初めてExaスケールの壁を破ることが期待されている。

AMD Launches Milan-X CPU with 3D V-Cache and Multichip Instinct MI200 GPU — AMD Instinct MI200

Cisco Systems Cisco Silicon One Q200L

Metaが目指すメタバースの世界は、数十億人もの人々が仮想空間に集まり、高度なAIや高精度なグラフィックスが駆使されるため、大規模で高負荷に耐えうるネットワークインフラが必要になると考えられている。これは、Meta一社だけで作り上げられる世界ではなく、マークザッカーバーグ氏もメタバースには相互運用性が重要だと語っている。また、あまり知られていないが、Facebookは10年以上前からネットワークインフラのオープン性を志向しており、2009年にOCP（Open Compute Project）を設立し、様々なパートナーとエコシステムを構築してきていた。
そして、Ciscoもオープンソースコミュニティに対応すべく、2019年にスイッチやルータなどの完成品ではなく、内蔵されているチップを第三者に提供する戦略を打ち出した。
そんな両社が提携し、Metaは、データセンター向けのトップオブラックスイッチ「Wedge400」にCiscoのカスタムASICを搭載すると発表した。Ciscoが提供するカスタムASICの「Cisco Silicon One Q200L」は、超低消費電力で、大規模なスイッチング/ルーティングと高密度のポートに耐えうる性能を提供する。
スイッチのオペレーティングシステムもオープンSAI（Switch Abstraction Interface）を実装し、ベンダー固有のファームウェアから完全に分離することを可能にしている。Ciscoがチップメーカーとして、今後さらに存在感を示していけるのかどうかは定かでないが、データセンターインフラにおけるオープン化とそれに伴うカスタム要求への対応力が問われる時代になったと感じさせる変化である。

以上、主要な半導体メーカーのトピックを取り上げてきましたが、非常に専門的なスペックや性能表記等については理解の及ばない部分があり、割愛している内容も多々あることをお伝えしておきます。
しかし、昨今はソフトウェアの時代と言われ、とかくソフトウェアやサービスモデルばかりに注目しがちの中、それらを支えるインフラや半導体の進化にもしっかりと目を向けておくことの重要性を再認識させられた気がします。AIの進化はアルゴリズムだけでなく、チップの処理性能が格段に向上してたことで実現できるようになったことも多くあります。また、これまでアプライアンスで構成されていたものが、チップレベルに実装されていけば、物理的なアーキテクチャも大きく変わっていくことになるでしょう。
さらに言えば、半導体は企業のものづくりやビジネスに影響を与えるだけでなく、地政学的な問題や安全保障上のリスクとして捉えれば、もっと深く関心を持たざる得ない状況だと思います。継続して半導体分野に注目していきたいと思います。

Bay Area Newsletter / シリコンバレー・ニュース

Discussion about this post