Intel、サーバ向けCPU「Xeon Processor Scalable Family」を正式発表 - アーキテクチャを刷新し、多様なワークロードへの対応を

Intel、サーバ向けCPU「Xeon Processor Scalable Family」を正式発表 - アーキテクチャを刷新し、多様なワークロードへの対応を

画像提供:マイナビニュース

●Xeonブランドをリニューアル
Intelは7月11日(米国時間)、データセンター向けプロセッサ「Xeon Processor Scalable Family」を正式発表し、製品ラインナップやアーキテクチャの詳細を公開した。マイクロアーキテクチャをSkylake世代に刷新したほか、キャッシュ構成の変更、AVX-512のサポートなど従来世代から大きな変貌を遂げている。

○製品ラインナップをリニューアル

Xeon Processor Scalable Familyについては、これまでに何度か弊誌でも紹介してきたが、従来のXeonではミッションクリティカルな領域をターゲットとし、高い信頼性を提供する4〜8ソケットサーバ向けの「Xeon E7」、メインストリームの幅広い用途をターゲットにコストパフォーマンス/ワットパフォーマンスを重視した2ソケットサーバ向けの「Xeon E5」、エントリサーバ向けの「Xeon E3」といったように、基本的にはソケット数で製品のグレードを分けてきた。

Xeon Processor Scalable Familyでは、このグレードをワークロードに合わせて、「Xeon Platinum」「Xeon Gold」「Xeon Silver」「Xeon Bronze」と変更する。最上位の「Xeon Platinum」でも2ソケットに対応し、ターゲットとするユーセージに応じて柔軟にシステムを構築できるいう。

また、前世代においてE7とE5で分かれていたプラットフォームを、Xeon Processor Scalable Familyではすべてのグレードで同じ「Purley Platform」を利用する。チップセットはIntel C620(Lewisburg)シリーズで、1/2/4/8ソケットをサポートする。

ブランドの変更により、命名規則も新しくなった。Xeon Platinum/Gold/Silver/Bronzeに続いて、1桁目の数字が製品のグレードによってそれぞれ8/6,5/4/3と定められ、続いて第1世代のXeon Processor Scalable Familyを表す「1」、その後の2桁はSKUを示すものとなる。

また、統合されたインタフェースや最適化された用途に応じて末尾に特定のアルファベットが付けられる。例えばOmni-Pathを統合している製品には「F」、長期間(10年間)供給する製品には「T」、ソケット当たり1.5TBのメモリ搭載に対応した製品には「M」が付く。

○最上位モデルは28コア/56スレッド

「Xeon Platinum」は、Xeon Platinum 81xxシリーズとして展開。ミッションクリティカルな領域や仮想化、リアルタイムでのデータ解析、AI向けの製品となる。コア数は最大で28コア、2/4/8ソケットに対応する。また高度なRAS機能をサポートする点も特徴だ。

「Xeon Gold」はXeon Gold 61xxシリーズ/51xxシリーズを展開。コア数やメモリのサポートなどが異なる。61xxシリーズは、パフォーマンスが求められる汎用演算処理やストレージ、ネットワーク向け。一方の51xxシリーズは幅広いワークロードに対応するという。

「Xeon Silver」と「Xeon Bronze」はそれぞれXeon Silver 41xxシリーズ、Xeon Bronze 31xxシリーズとなる。比較的な軽めなワークロード向けで、Xeon Bronze 31xxシリーズは既存のXeon E3からのアップグレードをターゲットとする。

合計で51製品をラインナップする。パフォーマンス重視/電力効率重視/長期供給/Omni-Path統合といったカテゴリーに分けて展開する。

●アーキテクチャを大きく変更
○マイクロアーキテクチャをSkylake世代に

Xeon Processor Scalable Familyでは、マイクロアーキテクチャをSkylake世代に刷新している。これはクライアント向けのものとほぼ同じだが、データセンター向けにのスペック強化として、AVX-512命令をサポートするための演算器を追加したほか、256KBのMLC(L2キャッシュ)に対してさらに768KBを増設することで計1MBとした。

AVX-512のサポートに合わせてクロックの振る舞いも変更している。AVX-512は、第2世代Xeon Phi(開発コード名:Knights Landing)からサポートしているが、Hisa Ando氏のレポートによると、AVX-512を頻繁に使うような場合では動作クロックを下げる挙動になっているという。

Xeon Processor Scalable Familyでも同じように、AVXを使わないケース(SSEやAVX2を軽く使う場合)、AVX2を頻繁に使うケース(AVX-512を軽く使う場合)、AVX-512を頻繁に使うケースで、それぞれ動作クロックを調節する。なお、動作クロックの調整は各コアで独立して行われる。IntelではAVX-512によって、性能と効率の両方を大幅に向上できるとアピールする。

○コア間のインターコネクトをリングからメッシュに変更

さて、既報の通りXeon Processor Scalable Familyでは、CPUコア間やキャッシュメモリのインターコネクトを従来のリングバスによる接続から、メッシュアーキテクチャに変更した。

前世代までのXeonを含めてIntel CPUで採用しているリングバスによる接続では、CPUコアが増えるごとにコア同士やI/Oユニットとの距離が生じていた。特に10コアを超えるような場合では、2つのリング間をバッファースイッチで接続するため、リングをまたいでLLC(L3キャッシュ)にアクセスするときなどで、レイテンシが増えてしまっていた。

これに対し、Xeon Processor Scalable Familyでは、CPUコアやキャッシュ、メモリコントローラを網目のように配置するメッシュ構造とすることで、CPUコア間やメモリコントローラなどとの間において短い経路でデータ転送が可能になる。これにより、バンド幅の増加やレイテンシの低減、電力消費の削減が実現できるほか、コアの増加したときの、電力消費やレイテンシの増大も抑えられるという。

ただし、大原雄介氏による「Core X」シリーズの検証結果を見る限りでは、コア数が少ない場合、リングバスでの接続よりもメッシュではレイテンシが増える傾向にあるようだ。

各コアには、キャッシュエージェントとホームエージェントを統合したCaching and Home Agent(CHA)、スヌープフィルタ、L3キャッシュスライスが付く。CHAはアクセスされるL3キャッシュスライスのアドレスを、メモリコントローラやIOサブシステムにマッピングして、効率的な伝送経路を提供する。CHAを各コアに分散することで、メッシュ内のトラフィックス削減や、早い段階でスヌープし、レイテンシを削減できるとする。

なお、Xeon Processor Scalable Familyのダイバリエーションは、前世代と同じHCC(High Core Count)/MCC(Middle Core Count)/LCC(Low Core Count)の3種類で、HCCが28コア、MCCが18コア、LCCが10コアとなる。

○キャッシュ階層も大きく変化 - L3がノンインクルーシブに

Skylake-SPコアでは、コア当たりのL2キャッシュが256KBから1MBへ増えたと紹介したが、L3キャッシュは逆に従来の2.5MBから1.375MBと削減された。さらにL3キャッシュをインクルーシブキャッシュからノンインクルーシブキャッシュへと変更になった。

L2キャッシュの容量を増やすことで、ヒット率が向上し、メッシュのモジュールやL3キャッシュへのトラフィックを抑えることができる。加えて、L3キャッシュをノンインクルーシブにした場合、L2キャッシュとL3キャッシュで重複する内容がないため、キャッシュ全体を効率的に利用できるという。

メモリコントローラも強化。ソケット当たりのコントローラ数は前世代と同じ2基だが、1基当たり3チャンネル、合計で6チャンネルをサポートし、最大1.5TBまでのメモリが搭載可能だ。また、最大メモリスピードもDDR4-2400からDDR4-2666に強化。ソケット当たりのメモリバンド幅が60%向上している。

○新たなCPU間インターコネクトやストレージ管理技術も

CPU間のインターコネクトは従来のQPIからUPI(Ultra Path Interconnect)に置き換わった。基本的にはQPIを強化したもので、データレートが9.6GT/sから10.4GT/sに向上したほか、データ効率の改善やアイドル時の電力消費削減を実現している。

I/OではPCI Express x16コントローラを、HCCで4基、MCCとLCCで3基搭載している。HCCのPCI Express x16コントローラのうち1基はOmni-Pathとの接続用に使われるので、実際のPCIeレーン数としては48レーンとなる。Omni-Pathは今回からチップ側にインタフェースを統合可能になった(オプションでの対応)。CPUに直結されたコネクタと専用ケーブルでモジュールを接続する形を採る。

また、高速SSDを管理するための新技術「Intel VMD(Volume Management Device)」も追加されている。従来はSATAなどで接続したストレージをソフトウェアで管理していたが、PCIe SSDのような広帯域で接続するストレージの場合、ソフトウェアでは遅延が発生するため、ハードウェアで管理をサポートするというものだ。

Core Xシリーズでも対応する仮想RAID技術「Intel VROC(Virtual RAID on CPU)」は、Intel VMDによるソリューションで、PCIe SSDでRAIDアレイを構築してもブートドライブとして利用できる。

○チップセットも大幅強化

対応チップセットであるIntel C620(開発コード名:Lewisburg)も、前世代のIntel C610(開発コード名:Wellsburg)から、機能やインタフェースを大幅に強化している。

Intel C620では、これまでディスクリートの形で提供してきた、データの暗号化や圧縮用のハードウェアアクセラレータである「Intel QuickAssist Technology」をチップセット側に統合した。IntelによるとAES256 + HMAC SHA256による暗号化で従来比3倍、RSA 2048 Decryptの公開鍵暗号で2.5倍、データ圧縮で4倍の性能向上を実現したという。

また、ネットワーク機能として、前世代ではGigabit Ethernetのサポートに留まっていたところ、Intel C620では4基までの10Gbit/Gigabit Ethernetに対応するネットワークコントローラ「Intel Ethernet Connection X722」を統合する点も特徴の1つだ。

Intel Ethernet Connection X722は、40Gbit/10Gbitに対応したネットワークアダプタ「XL710」のIPをベースとしたもので、PHYを備えた10Gbit対応ないしは、Gigabit Ethernet対応の拡張カードを用いることで最大4基の10Gbit/Gigabit Ethernetをサポートする。
(千葉大輔)