企業級 SSD 與消費級 SSD 的比較

講求高資料傳輸速度與低作業延遲的企業資料庫中心,過去都是依靠其伺服器中的硬碟機 (HDD) 來達成目標。現今,這些企業資料庫中心已經有越來越多遭遇到效能瓶頸,他們期盼固態硬碟 (SSD) 成為其可行的儲存解決方案,藉以改善料庫中心的效能、效率、可靠性,並降低整體營運費用 (OpEx)。

在了解不同固態硬碟等級的不同之前,我們必須能夠區分固態硬碟的兩個關鍵零件的不同:快閃儲存處理器 (或稱為 SSD 控制器) 及用來儲存資料的 NAND 快閃記憶體。

在今日的市場中,SSD 及 NAND 快閃記憶體被用在三大領域:
  • 消費型裝置 (平板、照相機、行動電話)、
  • 個人用戶產品 (小筆電、筆記型電腦、超薄筆電、一體成形電腦 (AIO)、桌上型個人電腦)、嵌入式/工業用 (電玩互動式多媒體資訊站)
  • 企業電腦運算產品 (HPC、資料庫中心伺服器)。

為企業資料庫中心挑選最合適的固態硬碟儲存裝置,可能是一個既漫長又費力的過程;在此過程中,必須對眾多固態硬碟廠商及產品類型加以認識、評鑑,因為並不是每個固態硬碟與 NAND 快閃記憶體都有同等的效能。

製作固態硬碟的目的在於輕鬆部署,以便取代或補強旋轉磁盤型硬碟機 (HDD) 的不足。固態硬碟的外觀尺寸眾多 (含 2.5 吋) 並且支援不同通訊協定/介面 (包括 SATA 與 SAS),藉以用更新的 PCIe 來處理伺服器之中央處理單元 (CPU) 的資料傳輸。

雖然固態硬碟易於部署,但是這無法保證每一種固態硬碟都適合長期用於所選擇的企業應用中。如果固態硬碟選擇不當,則會有因為寫入過多而提早壞掉、在預期壽命期間持續寫入效能過低,或因為在儲存陣列中帶來更多的延遲,而需提早替換等種種缺點,其代價可能超過先前所節省的成本及所獲得的效能優勢。

我們將探討用以區隔企業級與用戶級固態硬碟的三大特質,藉以協助企業在為其資料中心更換或添加儲存裝置時,做出正確的採購決定。

效能

固態硬碟可以透過多通道架構及 SSD 控制器至 NAND 快閃晶粒的並行存取,提供極高的的讀取與寫入效能,藉以處理來自 CPU 對連續與隨機資料的要求。

典型的資料中心需要處理數百萬位元組的公司隨機資料,其中包括 CAD 技術藍圖的協作、有待分析的地震資料(例如巨量資料),或存取全球客戶資料以進行金融轉帳(例如 OLTP)。儲存裝置必須讓使用者以最低的延遲時間來存取,並在不犧牲反應時間的情況下,允許大量用戶端存取相同的資料。使用者體驗取決於低延遲,如此可提升使用者產能。

一個用戶端應用程式只會牽涉到單一使用者或應用程式的存取,並且對於任何使用者或系統動作的最低與最高反應時間(或延遲)的差距,具有較高的容忍度。

使用固態硬碟的複雜儲存陣列(例如網路附加存儲 (NAS)、直接附加存儲 (DAS),或存儲區域網路 (SAN)),也會因為效能不協調而有負面的影響,並且破壞儲存陣列延遲、持續效能,最終導致使用者獲得的服務品質下降。

Kingston 的企業級固態硬碟不同於用戶級固態硬碟,它不只是為了在存取的前幾秒內達到最高效能而最佳化,還使用更大的超容量 (OP) 區,而且它可在長期間使用時,保持更高的持續穩定效能。特定磁碟機的詳細資訊位於 Kingston 網站的「 企業級 SSD」下方{{Footnote.N48213}}

這可保證儲存陣列效能符合企業組織期望在尖峰流量期間獲得的 服務品質 (QoS)

可靠性

NAND 快閃記憶體有幾個固有的問題,其中最重要的兩個是:NAND 快閃記憶體儲存格會在重複寫入時損耗,以及自然發生的錯誤率。

在生產 NAND 快閃記憶體的過程中,從矽晶圓切割的每一個 NAND 快閃晶粒都經過測試,而且以原始位元錯誤率 (BER 或 RBER) 來加以區隔。

BER 代表未受惠於錯誤校正碼 (ECC) 時,NAND 快閃裡自然發生位元錯誤的速率,而且此速率是在不中斷使用者或系統存取之下,由 SSD 控制器利用運行中的進階 ECC (通常由不同 SSD 控制器製造商稱為 BCH ECC、強大 ECC 或 LDPC 錯誤校正) 加以修正。

SSD 控制器可校正這些位元錯誤的能力,可用「無法校正的位元錯誤比例」(UBER) 來加以解釋:「一種資料損毀率的度量值,其值等於在使用任何指定的錯誤校正法後,每次位元讀取的資料錯誤數」。{{Footnote.N48213}}

依據產業標準協會 JEDEC 委員會在 2010 年發表的「JESD218A:固態硬碟 (SSD) 要求與耐用性測試法」,以及「JESD219:固態硬碟 (SSD) 耐久負荷」這兩份文件中的定義與標準,企業級與用戶級固態硬碟的差別有多項,其中包括但不僅限於:企業級固態硬碟比用戶級固態硬碟更能支援較重的寫入負荷、更為極端的環境條件,並從更高的 BER 中復原。{{Footnote.N52081}}{{Footnote.N52082}}

應用等級工作負載 (參閱 JESD219)運作狀態 (開機)休息狀態 (關機)無法修正之位元錯誤率
消費級 消費級 40° C
8 小時/天
30° C
1 年
≤10 -15
企業 企業 55° C
24 小時 / 天
40° C
3 個月
≤10 -16

表 1 - JESD218A:固態硬碟 (SSD) 要求與耐用性測試法
Copyright JEDEC.複印需經過 JEDEC 同意。

使用 JEDEC 建議的企業級與用戶級固態硬碟要求的比較,我們可知企業級固態硬碟在每萬萬億位元(約 1.11 PB)只能有一個無法復原的位元錯誤,而用戶級固態硬碟則是每千萬億位元(約 0.11 PB) 只能有一個無法復原的位元錯誤。

Kingston 的企業 SSD 也增加其他技術,其中可使用其他 NAND 晶粒 (類似於 RAID 磁碟機,這可復原使用儲存於區塊中對位資料重新建立而成的特定區塊) 中儲存的對位資料來復原毀損的資料區塊。

為了補強內建到 Kingston 固態硬碟上的區塊復原技術、定期建立檢查點及循環冗餘核對 (CRC) 及 ECC 錯誤校正也都被用來確保從主機經過快閃而來並回到主機的資料都完好無缺。將資料儲存到 SSD 內部快取記憶體,以及從 NAND 儲存區域寫入或讀取時,端對端資料保護代表會對接收資料的主機進行完整性檢查。

類似於防範位元錯誤的企業級 SSD 增強型 ECC 保護,SSD 也可能包含失去電源偵測之實體電路,其中會管理 SSD 上的電源儲存電容器。硬體中的電源故障支援會監控傳入 SSD 的電源,如果發生出乎意料的失去電源情形,則會使用 Tantalum 電容器為 SSD 提供零時電源,以完成內部和外部核發的未處理寫入,然後再將 SSD 的電源關閉。如果無法復原遺失的資料,則應用需要電源故障保護電路。

電源故障保護也可以透過 SSD 控制器快取記憶體區域 (例如,其 FTranslation 層資料表) 時常傳輸資料至 NAND 儲存設備,以便在 SSD 韌體中實施 - 這保證在停電事件期間不會有任何資料遺失,而可嘗試最大程度地減少不安全關閉電源的影響。韌體電源故障保護也確保 SSD 在不安全地關機之後,SSD 可能不會變成可作業狀態。

在許多情況中,使用「軟體定義儲存設備」或伺服器叢集可能減少硬體型電源故障支援的需求,因為任何資料會被複寫至不同伺服器上的個別及獨立儲存裝置。網路規模的資料中心通常會使用「軟體定義儲存設備」,將電源故障支援有效分配到 RAID 伺服器,以儲存相同資料的備援副本。

耐用性

任何包含在快閃儲存裝置中的 NAND 快閃記憶體,每經過一次 NAND 快閃記憶格的程式化或抹除 (P/E),其可靠地儲存資料位元的能力就會降低,直到 NAND 快閃記憶體區塊再也無法可靠地儲存資料為止。此時,降級或錯誤區塊會從使用者可定址的存放集區移走,並且將邏輯區塊 (或 LBA) 移至 NAND 快閃儲存陣列上的新實體位址。藉由使用屬於 SSD 上過度配置 (OP) 儲存設備一部分的備品區塊集區,新的儲存區塊會取代錯誤區塊。

當記憶格持續地被寫入或抹除的同時,BER 也呈線性的趨勢增加,因為這個原因,必須在企業級 SSD 控制器上執行一組複雜的管理技巧,藉以管理記憶格在固態硬碟產品壽命期間可靠地儲存資料的能力。 {{Footnote.N52083}}

特定 NAND 快閃記憶體的程式化或抹除耐用性可能會有相當大的不同,端視當前平版印刷製造流程及所製造的 NAND 快閃記憶體類型而定。

NAND 快閃記憶體類型TLCMLCSLC
架構 每格 3 位元 每格 2 位元 每格 1 位元
儲存容量 最高容量 最大容量 最低容量
耐用性 (程式化或抹除) 最低耐用性 中等耐用性 最高耐用性
成本 $ $$ $$$$
大約的 NAND 位元錯誤率 (BER) 10^4 10^7 10^9

表 2 - NAND 快閃記憶體類型 {{Footnote.N52084}}{{Footnote.N52085}}

企業 SSD 負載循環上的客戶 SSD 可能有所不同。因為企業級的固態硬碟必須有能力承受每週每天 24 小時資料存取的大量讀取或寫入作業,而這正是資料中心伺服器常見的工作模式。相較之下,用戶級固態硬碟每週每日僅有 8 小時是處於完全運作的狀態,因此,企業級多層式儲存格是相當適合高效能、高容量與高耐用性的固態硬碟。與具備 20/80 負載循環 (在電腦使用期間,20% 的使用中時間、80% 處於閒置或休眠模式) 相較之下,企業 SSD 有 24 小時全天候負載循環。

了解任何應用或固態硬碟的寫入耐用性所牽涉的層面可能相當複雜,這也是為何 JEDEC 委員會建議以「寫入兆位元組」( TeraBytes Written,TBW) 值來表示在固態硬碟中的 NAND 快取記憶體變成不可靠的儲存媒體,且在硬碟應當淘汰之前,可以寫入固態硬碟之原始主機資料的數量。

若使用 JEDEC 所建議的 JESD218A 測試方法與 JESD219 企業級工作負載,則透過 TBW 來說明固態硬碟製造商耐用性的計算,並推論出一種更容易瞭解且用於任何資料中心的耐用性度量方法,就會更容易了。

正如 JESD218 與 JESD219 文件所註明的,不同應用等級的工作負載,也可能因為寫入放大因數 (WAF) 的數量級高過主機所提送的實際寫入次數而受到影響,進而導致難以處理的 NAND 快閃記憶體磨損、長時間過多寫入造成更高的 NAND 快閃記憶體位元錯誤率,以及在整個固態硬碟中廣泛分布的無效分頁。

雖然「寫入兆位元組」(TBW) 是與企業級與用戶級固態硬碟相關的重要討論議題,但是它只是一種在 NAND 快閃記憶體層次上的耐用性預測模式。在元件層次的耐用性上,以及在根據裝置元件可靠度所做的可靠度預測模式中,還是要遵守「平均故障間隔時間」(MTBF) 的原則。對企業級固態硬碟元件的要求,包括在固態硬碟產品壽命期間內,能更持久且更努力地管理整個 NAND 快閃記憶體上的電壓。所有企業 SSD 都應該被額定為至少 100 萬小時 MTBF,其中會轉譯為超過 114 年!Kingston 會非常保守估計 SSD,而且提高 SSD 的 MTBF 規格並不罕見,重要的是注意 100 萬小時高於企業 SSD 的足夠起點。

對企業級固態硬碟進行 S.M.A.R.T. 監控與回報,可讓系統根據目前的寫入放大 (WAF) 因數及磨損的程度,在產品壽命結束前對裝置進行故障前查詢。針對失去電源、實體介面造成的位元錯誤,或不平均的磨損分布等故障事件所發出的故障前預警,通常也是有所支援的。Kingston SSD Manager 公用程式可從 Kingston 網站下載並可用於檢視磁碟機的狀態。

用戶級固態硬碟可能僅具備最少的 S.M.A.R.T. 輸出資料,以便在標準使用期間內或故障後用於監控固態硬碟。

亦可依據應用等級與固態硬碟的容量,分配更多的 NAND 快閃記憶體保留容量,以作為超容量 (OP) 的備用容量。超容量的容量是使用者與作業系統無法存取得到的,它可作為暫時的寫入緩衝以獲得更高的持續效能,並且在固態硬碟的產品壽命期間內,取代有瑕疵的快閃記憶格,藉以加強固態硬碟 (備品區塊的數量增加) 的可靠度與耐用性。

結論

企業級與用戶級固態硬碟之間有著截然不同的差異,其差異點從它們的 NAND 快閃記憶體的「程式化」與「抹寫」耐用性,到複雜的管理技術都有,這都是為了配合不同的應用等級的工作負載。

若能了解應用層級在效能、可靠度與耐用性的差異,我們即可在有嚴苛要求、且經常具有業務關鍵性的企業環境中掌握到一種有效的工具,以便將發生破壞性停機的風險減至最低並予以控管。如有其他問題,請聯絡 Kingston 代表或善用 Kingston.com 的「請教專家」或「技術支援聊天」功能。