Servers in a data center

資料中心管理員從超級電腦中學到的4件事

如果在路上隨機詢問路人對於超級電腦的看法,您可能會得到很多引用賣座電影的舉例,而且通常不是什麼正面的形象。
從《2001 太空漫遊》(2001: A Space Odyssey) 的HAL 9000 到《機械公敵》(iRobot) 的 VIKI,甚至是《魔鬼終結者》(The Terminator) 的 Skynet;流行文化經常將超級電腦描繪成進化並背叛人類的機器。


如果和在勞倫斯利佛摩國家實驗室 (Lawrence Livermore National Laboratory) 或美國國家氣象局 (National Weather Service) 工作的研究員談起這些例子,他們會哄堂大笑。
老實說現在超級電腦離擁有自我意識還非常遙遠,唯一的人工智慧 (AI) 本質上是一個非常大的搜尋器,負責在數量極為龐大的資料庫搜尋所需的資訊。


目前超級電腦的用途在於協助研究發展最前沿的眾多應用程式:從石油、天然氣探勘到天氣預報、金融市場以及開發新科技。
超級電腦是運算界的藍寶堅尼或布加迪跑車,而 Kingston投入了許多心血推動運算技術的進步。
從使用與調整 DRAM 到管理儲存陣列的韌體精進工作,甚至是強調傳輸一致性與延遲速度而非高峰值,我們的科技深受還是新興技術的超級運算所影響。


同樣地,雲端與內部部署資料中心管理員也能在設計與管理基礎架構時學到非常多事,還有為將來發展做好準備的元件制定最佳選擇,同時免於進行大幅修改。

伺服器內部以發光線路作為網絡示意
1.超級電腦專為一致性而設計

和多數的雲端運算不同 (例如 Amazon Web Services or Microsoft Azure 這些旨在支援可以利用共享資源和基礎架構的各種應用程式),大部分的超級電腦是因應特定需求而設計的。眾所周知且公開的世界上五百大速度最快的超級電腦名單,其內容不僅記錄安裝的位置和速度,還有主要的應用領域。

排名前十二的機器中,有 11 台專門供能源研究、核測試和國防應用。唯一的例外是 Frontera,它是德州大學在 NSF 資助下的德州高級運算中心 (Texas Advanced Computing Center) ,是一台具有千兆級運算能力的系統,屬於提供科學和工程研究的學術資源。
而在那之後的 20 台超級電腦中,幾乎所有皆用於政府國防和情報應用。在列表上排名 30-50 名的機器有一大部分用於天氣預測。前 100 名的後 50 名是包含公司的運算系統 (NVIDIA、Facebook 等)、中距天氣預報、太空計劃、石油和天然氣探勘、學術與特定政府用途。

這些機器並不是萬能的。它們由 Intel、Cray、HP、Toshiba 與 IBM 等製造商訂製開發,針對特定資料集進行特定類型的運算,無論是即時計算或非同步運算。

它們定義了可接受的延遲閥值:

  • 利用數百萬個處理核心,預先計算運算資源

  • 提供 18,000 至 200,000 teraFLOPS 之間的時脈頻率。

儲存容量以 EB 為單位進行測量,遠超過現代資料倉儲中的 PB。

Frontera 這類的系統不僅要加強高峰值運算負載,還必須不斷讀取大量資料才能得出結果。實際上,運算性能的高峰值可能會導致結果錯誤,因此應強調一致性。

因此資料中心管理員首先該釐清的問題是「使用系統的目的為何?」,以便了解失效安全的狀況下建構、管理資源及建造系統。
管理在數個虛擬桌面上執行的資料中心,和管理 911 呼叫中心、空中交通控管系統極為不同。需求、要求、服務層級協議和預算都不一樣,且必須進行相應的設計。

同樣地,也需要考量如何在不需要自訂建置的情況下實現一致的性能。Amazon、Google 與 Microsoft 這些公司有設計自訂儲存空間或運算基礎架構的預算,但大部分的伺服器供應商的選擇侷限於現成的硬體。

因此,越來越多的資料中心管理員需要針對處理QoS的效能基準設定嚴格標準, 並確保強調的重點不僅在於運算速度和延遲,同時也須注重一致性。

伺服器內部以發光線路作為網絡示意
2. 您的即時與我的即時不同

對超級運算應用程式來說,大多的即時資料處理都有重大使命。
從中止核反應到發射火箭的遙測資料,運算延遲都會導致災難性的後果,而且資料集相當龐大。這一連串的反應不是來自同一個來源,而是從由回報節點所組成的網路提供。

但是資料的壽命相當短暫。使用即時摘要時,大多數資料不會永遠保存。資料寫入之後,會在連續寫入及覆寫的貨架壽命結束之後而覆寫。
即時資料一直在變化,很少有應用程式會需要從一開始就儲存每一位元。資料會分批進行處理,透過運算取得結果 (包括平均值、統計模型或演算法),而最終會儲存的只有結果。

以美國國家海洋暨大氣總署 (National Oceanographic and Atmospheric Administration, NOAA) 的超級電腦預測為例。氣象因素總是不斷變化,包括降水、空氣和地面溫度、氣壓、當天時間、太陽效應、風,甚至是風穿越地形的方式。
這些因素每分每秒都不同,也會以即時資訊串流進行回報。但是 NOAA 的國家天氣服務 (National Weather Service, NWS) 不需要持有原始資料太久。您需要預測模型!隨著全球預測系統 (GFS) 模型建立而成,新的資料將會送近此模型,提供更新、更準確的預測。

除此之外,從 NWS 共享與接收資料的當地氣象學家也不需要取得所有全球天氣的資料集。氣象學家們只需要將模型限縮到當地區域即可。這讓他們能使用當地氣象站來補充 NWS 資料,以洞察微型氣候,並透過批次建立計算得出的結果 (包括平均值、統計模型或演算法) 來加速得到更準確的當地預測,並保持結果不變。

對於使用浮動平均值的股票交易或財務模型而言也是相同的情況,每個浮動的平均值都有內建特定的指標與動作反應標準,設定根據來自可接受的市場行為閥值所設定的特定參數。
設計一個使用「即時資料」的系統並不需要儲存所有輸入至系統裡的資料,但應該利用 NVRAM 與 DRAM 進行快取與處理過程中產生的資料,再將計算結果交付至儲存空間。

フラッシュメモリチップのイラストと回路の輝線
3. レイテンシのしきい値、NANDフラッシュ、DRAMのチューニング

レイテンシのしきい値は、ほとんどの場合アプリケーションで必要とされるために設定されます。
金融取引は、秒単位で10億ドルとはいかなくとも、少なくとも百万ドルの規模で行われます。
天候予測やハリケーン追跡の場合、避難先がニューオリンズとヒューストンのどちらになるかを左右します。


レイテンシ、演算のリソース、ストレージや帯域幅のいずれであれ、スーパーコンピューターは先験的なサービスレベルに基づいて運用されます。
ほとんどはフェイルアウェアなコンピューティングを採用します。その場合のシステムは、ジョブへ十分な処理能力や帯域幅を確保するため、非同期計算モデルへのシフトや演算リソースの優先付けを通じて、データ配信の経路を変更することで、𝛱+最大Δクロッキングに基づく最適なレイテンシを維持します。

ハイエンドのワークステーション、Ironサーバー、HPCや科学分野のいずれを扱う場合でも、大型コンピューターとビッグデータは大量のDRAMロードアウトを必要とします。
Tianhe-2などのスーパーコンピューターは、大量のRAMロードアウトに加え専用のアクセラレーターカードが必要です。
スーパーコンピューターは、個々のアプリケーション設計に合わせて、ハードウェアとコントローラーのフレームワークを微調整します。
ディスクへのアクセスが原因でRAM要件に大きなボトルネックが生まれる特殊な演算処理では、DRAMはあまり実用的ではありませんが、NANDフラッシュ組み込めるほどには小型化できます。
従来の記録メディアを使用してデータを読み取らなければならない場合、大規模なデータセットではパフォーマンスを大幅に引き上げられるよう、FPGAクラスタも個々の作業負荷に合わせてさらに微調整されます。

ユタ大学、ローレンス・バークレー研究所、南カリフォルニア大学、アルゴンヌ国立研究所から成る共同チームは、アーキテクチャを変更してもパフォーマンスを効果的に保てるよう、自動パフォーマンス調整(自動調整)の新しいモデルを提示しました。
最新型のマルチコアアーキテクチャでのみ最適なパフォーマンスを実現できるコンパイラーに頼るのではなく、自動調整されたカーネルとアプリケーションを使用すれば、対象のCPU、ネットワーク、プログラミングモデルに合わせて自動的に調整を行えます。

戴安全帽的 IT 工作人員在抬頭顯示器前使用筆記型電腦的示意圖
4. 多層失效安全

HPC 資料中心的能源分配變得越來越具挑戰性,尤其是用於共享資源的基礎架構。無論是專用或依服務提供的基礎架構中,資料中心都必須確保運作不間斷,並降低在發生斷電及高峰值需求變化時,損壞脆弱硬體組件的風險。

工程師會混合使用不同的損耗分佈變壓器:

  • 直流配電和 UPS 備援、

  • 三聯式供電 (透過熱建立電流,多餘的熱氣作為備援)

  • 主動監控
「經常儲存」是任何應用程式的口頭禪,而對於將「備份」奉為圭臬的資料中心而言,情況也是如此。

現在多數的資料中心都採用高級 RAID 架構運作,以確保跨儲存陣列進行連續與幾乎同時的寫入。此外,HPC 基礎架構利用大量的 NVRAM 來快取處理中的資料,這些資料是不跨儲存陣列的即時資料串流,或是並行處理的資訊,從而產生了類似暫存磁碟的用法,以釋放更多的計算資源。上述的 Frontera 系統利用了 50PB 的總暫存容量。具有非常高的頻寬或 IOPS 要求的使用者將能夠在全 NVMe (非揮發性記憶體儲存裝置) 文件系統上請求分配,其容量約為 3PB,頻寬約為 1.2TB/s。

像這樣不停進行 RAID 備份並持續在 NVMe 緩衝區進行快取的動作,取決於設備上控制器的總 I/O 閥值,以及用於遠端儲存 / 備份的總可用或已配置的頻寬。

多數 HPC 基礎架構也透過完全轉移至固態陣列和閃存儲存區塊,以消除旋轉驅動器引起的硬體故障。
這些儲存解決方案提供一致的 IOPS,且有可預測的延遲,這些延遲位在特定應用程式的延遲閥值之內。許多超級電腦也會利用多個磁帶庫 (容量可擴展至 EB 以上),為處理並持存的每一位元進行可靠的資料存檔。

也有許多公司為了因應鏈條中所有其他組件故障,在 SSD 和 DRAM 上安裝電源失效 (Pfail) 電容器 (P-Cap),也稱為斷電保護 (PLP)。許多公司也為了因應流程中其他組件發生故障,而在 SSD 和 DRAM 上安裝電源失效 (Pfail) 電容器 (P-Cap),也稱為斷電保護 (PLP)。

結論

再次重申,客製化是超級運算領域的關鍵因素,但是了解您的需求是建立資料中心以及達到最穩定效能的第一步。
無論資料中心規模如何,在產生、儲存或共享資料時,應將其視為打造超級電腦時,至關重要的一環。
透過評估這些變因,工程師可以設計出高效能的基礎架構,即便使用現成的組件也能為未來發展做足準備。

相關產品

欲了解COVID-19如何影響我們的企業營運,請按一下此處。