Servers in a data center

データセンターの経営者が最高速のスーパーコンピューターから学べる4つのレッスン

街頭で一般の方々にスーパーコンピューターについてどう思うか尋ねれば、たぶんほとんどの回答は人気映画に登場した例を挙げるでしょう。たいていの場合は、悪玉です。HAL 9000(2001年宇宙の旅)やアイ,ロボットのヴィキ、またはターミネーターのスカイネットですら、ポップカルチャーで描かれるスーパーコンピューターは、進化して意識を得た結果、人類に敵対したシステムとして描かれることが珍しくありません。

しかし、そうした見方をローレンス・リバモア国立研究所や国立気象局の研究者たちに伝えたら、大声で笑い飛ばされるはずです。現実には、現在のスーパーコンピューターは自意識を持つにはほど遠く、唯一のAIは膨大なデータセットをスキャンする大掛かりな検索バーに過ぎません。

今日、スーパーコンピューターは石油とガスの探索、気象予測、金融市場、新規技術の開発など、発展の最先端で多数のアプリケーションを駆動しています。スーパーコンピューターは、コンピューター分野のランボルギーニやブガッティです。キングストンは、コンピューターの限界を打ち破る進化へ大いに注目しています。DRAMの活用とチューニング、ストレージアレイの管理におけるファームウェアの進歩や、ピーク値ではなく転送とレイテンシの速度の安定性を重要視することにいたるまで、当社の技術は最先端のスーパーコンピューターの影響を深く受けています。

同様に、クラウドまたはオンプレミスのデータセンター経営者は、インフラを設計および管理したり、大規模な設備刷新を行わずとも将来の進歩に対応できるコンポーネントを上手に選択する方法など、多くの事柄をスーパーコンピューターから学べます。

ネットワークを示す輝線を持つサーバー
1.スーパーコンピューターは安定性を追求した専用機器です

リソースやインフラを共有して、どのアプリケーションでも稼働できるように作られたほとんどのクラウドコンピューティング・プラットフォーム(Amazon Web ServicesやMicrosoft Azureなど)とは異なり、スーパーコンピューターの大多数は特定の要求に合わせて作られた専用機器です。世界最速のスーパーコンピューター(機密外で公開済み)の上位500機種の最新リストでは、設置場所と速度だけでなく、主要アプリケーションの分野も記載されています。

上位12台のうち11台は、エネルギー研究、核実験、国防のアプリケーション専用です。唯一の例外は、テキサス大学のテキサス先端計算センターに設置されているFronteraです。全米科学財団が資金提供した新型のペタスケールコンピューティングシステムであり、科学と技術の研究パートナーへ学術的なリソースを提供します。上位500機種で次にランクされる20台のスーパーコンピューターは、ほとんどすべてが政府の国防や諜報活動のアプリケーション専用です。リストで30~50位の機器は、多くが気象予測専用です。上位100機種の残りの50台は、個別企業のコンピューティング(NVIDIAやFacebookなど)、中規模の気象予測、宇宙計画、石油とガスの探索、教育機関、政府の特定用途が混在しています。

これらの機器は汎用機ではないのです。Intel、Cray、HP、東芝、IBMなどのメーカーがカスタム開発した機器であり、非常に特殊なデータセットを用いて、リアルタイムまたは非同期で特定の計算を演算処理します。

それらには、許容可能なレイテンシのしきい値が定義されています。

  • 数百万の処理コアを活用する、プリセットされたコンピューティングリソース
  • 18,000~200,000テラフロップスのクロックレート

ストレージ容量は、現代のデータウェアハウスが扱うペタバイトをはるかに超える、エクサバイトで測定されます。

Fronteraなどのシステムは、ピーク演算負荷で稼動するだけでなく、結果を得るために大量のデータを安定して読み取る必要もあります。
演算能力が急激に増加すると計算結果のエラーを引き起こすことがあるため、安定性が重要視されます。

今日のデータセンター経営者は、企画、リソース管理、予測可能なフェイルセーフの構築を行うために、まず「システムに何をさせるのか?」を問う必要があります。
膨大な仮想デスクトップを実行するデータセンターの管理は、110番のコールセンターや航空交通管制のシステムとは大きく異なります。さまざまなニーズ、需要、サービス内容合意書、予算があり、それらに応じた設計が必要です。

同様に、カスタムで構築せずに安定したパフォーマンスを達成する方法についても検討する必要があります。Amazon、Google、Microsoftなどの企業はカスタムのストレージやコンピューティングインフラを設計する予算が ありますが、サービスプロバイダーの大半は市販のハードウェアから厳選する必要があります。

そのため、多くのデータセンター管理者は、QoS(サービス品質)を満たし、演算速度とレイテンシだけでなく安定性も優先させるため、パフォーマンスのベンチマークに高い基準を設定する必要があります。

ネットワークを示す輝線を持つサーバー
2. リアルタイムの定義は企業ごとに異なります

スーパーコンピューターのアプリケーションでは、リアルタイムデータのほとんどのインスタンスが大きな影響力を持ちます。核反応の停止からロケット打ち上げの遠隔測定データまで、演算にレイテンシが存在すると壊滅的な影響をもたらす可能性があります。そのうえ、データセットは膨大にのぼります。これらのデータストリームは、単一のソースではなくレポートノードのネットワークから供給されることの方が一般的です。

また、データは短命です。リアルタイムのフィードを使用する場合、恒久的に保存されるデータはごくわずかです。データには期限があり、連続的な書き込みと読み取りで上書きされ続けます。リアルタイムデータは常に変化するため、最初から全てのビットを保存する必要があるアプリケーションはほんの一部です。
データはバッチ単位で処理され、一般的な統計モデルやアルゴリズムなどの結果を生成するために計算され、保存されるのは結果のみです。

アメリカ海洋大気庁(NOAA)がスーパーコンピューターを使用して行う予測を例に挙げましょう。
降水量、気温、地表温度、気圧、時刻、太陽効果、風、さらに風が地形を通過する様子までも、気象学的因子は常に変化します。これらは毎秒変化し、リアルタイムの情報配信として報告されます。しかし、NOAAの国立気象局(NWS)が必要なのは生データを恒久的に保存することではありません。予測モデルが必要なのです。グローバル大気予報システム(GFS)モデルが形式化されるにつれて、新たなデータがこのモデルを通じて使用され、より正確で最新の予測が形成されます。

さらに、NWSからのデータを共有して受信する各地の気象学者は、グローバルな気候のデータセット全体にアクセスする必要はありません。
地域限定のモデルを使用するだけで済みます。
このため、NWSのデータを現地の測候所のデータで補完できます。そのため、微気候を把握し、平均/統計/アルゴリズムなどの結果を得るために演算するデータのバッチを作成することで、現地の気象予測をより正確に行えるようになります。

移動平均を扱う株式取引や金融モデルにも同じことが言えます。それぞれに専用の指標があり、許容可能な市場変化のしきい値を示す特定のパラメーターに基づいて行動が促されます。「リアルタイム」データを使用するシステムは読み込んだデータすべてを保存する必要はありません。それでも、不揮発性ランダムアクセスメモリ(NVRAM)とダイナミックRAM (DRAM)を利用して、データを都度キャッシュに格納して処理し、ストレージへ計算結果を出力させる方が効果的です。

フラッシュメモリチップのイラストと回路の輝線
3. レイテンシのしきい値、NANDフラッシュ、DRAMのチューニング

レイテンシのしきい値は、ほとんどの場合アプリケーションで必要とされるために設定されます。
金融取引は、秒単位で10億ドルとはいかなくとも、少なくとも百万ドルの規模で行われます。天候予測やハリケーン追跡の場合、避難先がニューオリンズとヒューストンのどちらになるかを左右します。

レイテンシ、演算のリソース、ストレージや帯域幅のいずれであれ、スーパーコンピューターは先験的なサービスレベルに基づいて運用されます。
ほとんどはフェイルアウェアなコンピューティングを採用します。その場合のシステムは、ジョブへ十分な処理能力や帯域幅を確保するため、非同期計算モデルへのシフトや演算リソースの優先付けを通じて、データ配信の経路を変更することで、𝛱+最大Δクロッキングに基づく最適なレイテンシを維持します。

ハイエンドのワークステーション、Ironサーバー、HPCや科学分野のいずれを扱う場合でも、大型コンピューターとビッグデータは大量のDRAMロードアウトを必要とします。Tianhe-2などのスーパーコンピューターは、大量のRAMロードアウトに加え専用のアクセラレーターカードが必要です。
スーパーコンピューターは、個々のアプリケーション設計に合わせて、ハードウェアとコントローラーのフレームワークを微調整します。
ディスクへのアクセスが原因でRAM要件に大きなボトルネックが生まれる特殊な演算処理では、DRAMはあまり実用的ではありませんが、NANDフラッシュ組み込めるほどには小型化できます。
従来の記録メディアを使用してデータを読み取らなければならない場合、大規模なデータセットではパフォーマンスを大幅に引き上げられるよう、FPGAクラスタも個々の作業負荷に合わせてさらに微調整されます。

ユタ大学、ローレンス・バークレー研究所、南カリフォルニア大学、アルゴンヌ国立研究所から成る共同チームは、アーキテクチャを変更してもパフォーマンスを効果的に保てるよう、自動パフォーマンス調整(自動調整)の新しいモデルを提示しました。
最新型のマルチコアアーキテクチャでのみ最適なパフォーマンスを実現できるコンパイラーに頼るのではなく、自動調整されたカーネルとアプリケーションを使用すれば、対象のCPU、ネットワーク、プログラミングモデルに合わせて自動的に調整を行えます。

ヘッドアップディスプレイの前で、ヘルメットをかぶりラップトップを操作するIT技術者のイラスト
4. 多層型のフェイルセーフ機構

HPCデータセンター内でエネルギーを配分することはますます難しくなっています。特に、インフラを共有リソースとして活用する場合にそれが当てはまります。
専用インフラまたはサービスの一環として提供されるインフラのいずれでも、データセンターは継続的な稼働を保証し、停電やピーク需要の急増または変動の際に繊細なハードウェアコンポーネント部品が破損するリスクを抑えなければなりません。


アーキテクチャの設計者は、障害を分散するため様々な対策を組み合わせます:

  • DC電源供給とUPSによるバックアップ、

  • トリジェネレーション(放熱から電気を生成しバックアップ用に保存)

  • アクティブ監視

「こまめにセーブ」はすべてのアプリケーションのスローガンです。これは、「バックアップ」が至上命令となるデータセンターでも真実です。

現在のデータセンターのほぼすべてが、ストレージアレイ全体にわたって連続的にほぼ同時の書き込みを保証するため、高レベルのRAID体系を使用して運用されています。さらに、HPCインフラは処理中のデータをキャッシュに格納するため、大量のNVRAMを利用します。これはストレージアレイからデータを取り出さないライブ配信か、スクラッチディスク的な利用法で演算リソースを増やす並列処理情報のいずれかとなります。
前述のFronteraシステムは合計50PBのスクラッチ容量を利用します。帯域幅やIOPSの要件が非常に高いユーザーは、約3PBの容量を持ち帯域幅が最大1.2TB/秒の全NVMe(不揮発性メモリExpress)ファイルシステム上に割り当てを要求できます。

このストレージ用の常時RAIDバックアップと、NVMeバッファの継続キャッシングは、デバイス上のコントローラーの合計I/Oしきい値と、リモートストレージ/バックアップへ割り当てられた帯域幅に左右されます。

また、ほとんどのHPCインフラは、ソリッドステートアレイとフラッシュストレージブロックへ完全に移行することで、ドライブの回転が原因で起こるハードウェアの故障を完全に排除しています。
これらのストレージソリューションは安定したIOPSを実現しており、予測可能なレイテンシはアプリケーション固有のレイテンシのしきい値内に収まります。また、多くのスーパーコンピューターは、処理し格納するすべてのデータを安心してアーカイブできるよう、エクサバイト級へ拡張できる複数のテープライブラリも利用しています。

多くは、システム内で他の要素すべてが障害を起こした場合に備え、電源喪失保護機能 (PLP)としても分類される電源障害(PFail)コンデンサー(P-Cap)をSSDとDRAMに搭載しています。
P-Capを利用すれば個別ドライブまたはドライブアレイ全体で処理中の書き込みを完了できるため、壊滅的な障害時に失われる可能性があるデータ量を削減できます。

結論

繰返しになりますが、スーパーコンピューターの分野ではカスタムが主流です。データセンターを構築して、最も安定したパフォーマンスを実現するのであれば、自社のニーズを把握することが第一歩となります。
これは、データセンターの規模に関わらず鍵を握ります。スーパーコンピューターでは、データの生成、保管、共有時に重要となります。
アーキテクチャの設計者はこうした要素を評価すれば、たとえ市販のコンポーネントを使用した場合でも、将来の進歩に備えた高性能なインフラを設計できます。

#KingstonIsWithYou

関連記事