内存
固态硬盘
USB 闪存盘
闪存卡
支持
内存搜索

最佳实践

企业与客户端 SSD 对比

过去,企业数据中心依靠其服务器中的硬盘驱动器 (HDD) 来满足高数据吞吐量和低交易延迟,而如今越来越多这样的企业数据中心面临性能瓶颈,他们指望将固态硬盘 (SSD) 作为可行的存储解决方案来提高数据中心的性能、效率和可靠性,并降低整体运营成本 (OpEx)。

要了解各级 SSD 之间的差异,首先,我们应先了解 SSD 的两个关键组件,即闪存处理器和用于存储数据的非易失性 NAND 闪存。

在当今市场上,SSD 和 NAND 闪存消费主要分为三个组别:消费设备(平板电脑、照相机、移动电话)、客户端(上网本电脑、笔记本电脑、Ultrabook(超级本电脑)、AIO、台式个人电脑)、嵌入式/工业(游戏信息终端)与企业计算(HPC、数据中心服务器)。

然而,为企业数据中心选择合适的 SSD 存储设备会是一个长期而费劲的过程,这涉及了解众多不同的 SSD 供应商和产品类型并对它们进行资格预审,因为事实上并非所有 SSD 和 NAND 闪存在制成时就完全一样。

制成的 SSD 可轻松部署,它是硬盘的替代品或补充性的基于硬盘 (HDD) 的旋转磁碟,SSD 有包括 2.5” 在内的许多不同的外形尺寸,它支持各种通信协议/接口(包括串行 ATA (SATA) 以及串行连接 (SAS))以将数据传入到服务器的中央处理单元 (CPU) 或从该单元传出。

可轻松部署并不能确保所有 SSD 均长期适用于将它们部署到的企业应用,当 SSD 由于写入次数过多而提前损耗时,选择不当 SSD 所带来的开销常可使任何先前的成本节省和获取的性能效益付之东流,并造成在其预期寿命期间的持续写入性能大为低下或对存储阵列带来额外的延迟,从而需要提早进行现场更换。

在本白皮书中,我们将讨论区分企业级和客户端级 SSD 的三个主要特质,以便在要更换存储或将更多存储添加到企业数据中心时作出正确的采购决策。

性能

通过运用从 FSP 到 NAND 闪存颗粒的多通道架构和并行访问,SSD 可为来自 CPU 的顺序和随机数据请求带来格外高的读取和写入性能。

在涉及处理数百万字节随机公司数据(包括在 CAD 技术图纸上的协作、供分析用的地震数据(例如大数据),或者访问供银行交易用的全球客户数据(例如 OLTP))的典型数据中心情形中,必须以最少的延迟量访问存储设备并可以涉及需要并发访问相同数据的客户端,而不会对响应时间造成影响。

客户端应用程序仅涉及单个用户或应用程序访问,在任何用户或系统操作的最短和最长响应时间之间具有更高的容许 ⊿ 值。

使用 SSD 的复杂存储阵列(例如网络连接存储、直连存储或存储局域网)也会受到不相符性能的负面影响,并可导致存储阵列延迟、持续保持性能受到破坏,并最终危害到服务质量。

与客户端 SSD 不同,诸如金士顿 E100 固态硬盘等企业级 SSD 不仅针对访问前数秒中的最高性能而且还针对使用更大的过度配置容量 (OP) 加以优化,从而这些企业级 SSD 还能在较长时段内持续提供保持稳定状态的性能。 [1]

这将确保在最高流量负载期间的存储阵列性能与组织的预期服务质量一致。

可靠性

NAND 闪存存在许多与其自身有关的固有问题,两个最为重要的问题包括有限的预期寿命和自然发生的错误率。

在 NAND 闪存生产期间,每个 NAND 闪存颗粒均会经过测试并具有底层位错误率 (BER 或 RBER) 特性。

BER 定义了在没有得益于纠错代码 (ECC) 的情况下在 NAND 闪存中自然发生的位错误的比率。在具有纠错代码时,在不中断用户或系统访问的情况下,FSP 将通过在传输过程中运用的高级 ECC 进行纠错。

闪存处理器纠正这些位错误的能力可以通过无法修复的位错误率 (UBER) 来说明,“数据错误率的度量与在应用任何具体纠错方法后的按位读取的数据错误数相等。” [2]

正如 JEDEC 委员会于 2010 年在文件“JESD218A:固态硬盘 (SSD) 要求与耐久测试方法”以及文件“JESD219:固态硬盘 (SSD) 耐久工作量”中定义和标准化的内容所述,企业级 SSD 在许多方面与客户端级 SSD 存在差异,这些差异包括但不限于企业级 SSD 支持更为繁重的写入工作量、更为极端的环境条件以及从比客户端 SSD 更高的 BER 中恢复。 [3] [4]

Application Class Workload (see JESD219) Active Use (power on) Retention Use (power off) Functional Failure Requirement (FFR) Uber Requirement
Client Client 40° C
8 hrs/day
30° C
1 year
≤3% ≤10 -15th
Enterprise Enterprise 55° C 24hrs/day 40° C
3 monts
≤3% ≤10 -16

表 1 - JESD218A:固态硬盘 (SSD) 要求与耐久测试方法 版权归 JEDEC 所有。 复制内容已获 JEDEC 允许。

在使用 JEDEC 建议的 UBER 要求方面,将企业级 SSD 与客户端 SSD 进行对比,企业级 SSD 要求每处理 1 万万亿位 (~1.11 PB) 仅存在1 位经历 1 次无法修复的位错误,而客户端级 SSD 与此相比则是每处理 1 千万亿位 (~0.11 PB) 存在 1 位错误。

通过跨 NAND 闪存颗粒运用条带奇偶校验,在企业级 SSD 上实施包括 LSI® SandForce® 的独立硅片冗余阵列 (R.A.I.S.E.) 技术在内的其他保护方法,可以应对 FSP ECC 无法从位错误中恢复的情况。 [5]

R.A.I.S.E. ™ 技术可以将 UBER 有效降低至每处理 10 万亿亿亿位 (10-29) 或 ~111022302462515.66 PB 存在 1 位错误,并带来比标准 SSD 最高约少 1 千万亿次的 UBER。 为在金士顿 E100 SSD 上运用 R.A.I.S.E. ™ 技术,另外还创建定期检查点并进行循环冗余检验 (CRC) 的端到端内部保护方案,以确保数据在从主机经过闪存再回到主机的完整性。

与企业级 SSD 针对位错误的增强型 ECC 保护类似,它们通常还应包含具有与金士顿 E100 电源故障支持相当的电力损失检测逻辑的控制电子元件,以监控输入电源并在发生电力损失情况时使用钽电容器提供临时电源,从而完成任何内部或外部发出的未完成的持续写入。

สมบุกสมบัน

对于可靠存储 NAND 闪存单元的每个程序或擦写 (P/E) 次数的数据位方面,闪存设备中所含的所有 NAND 闪存的此方面能力会有所下降,直至 NAND 闪存不再能够可靠地存储数据,此时,应将这类闪存从用户可寻址的存储池中除去,该逻辑地址会移至 NAND 闪存阵列上的新物理地址。

随着单元不断编程或擦除,BER 还会线性增加,出于此方面原因,必须对企业级 SSD FSP 施行一组复杂的管理技巧,以管理单元在 SSD 的预期寿命期间可靠存储数据的能力。 [6]

指定 NAND 闪存的擦写耐久性可能会有很大差异,这取决于当前的平版印刷术制造工艺以及生产的 NAND 闪存的类型。

NAND 闪存类型 TLC MLC e-MLC SLC
架构 每个单元三位 每个单元两位 每个单元两位 每个单元一位
存储容量 最大存储容量 大存储容量 大存储容量 最小存储容量
擦写耐久性 最低耐久性 中等耐久性 高耐久性 最高耐久性
成本 $ $$ $$$ $$$$
NAND 位错误率 (BER) 约值 10^4 10^7 10^8 10^9

表 2 – NAND 闪存类型 [6] [7] [8] [9]

在金士顿 E100 企业级 SSD 上使用的企业级多级单元 (e-MLC) NAND 闪存在运行中与商品级 MLC NAND 闪存类似,但是前者具有额外的屏蔽和资格要求,以获得比在客户端级 SSD 上使用的标准 MLC 更高的擦写耐久性和更低的 BER。

由于客户端级 SSD 通常每周每天仅有 8 小时在充分利用,而企业级 SSD 必须能够承受需每周全天 24 小时访问数据的数据中心服务器的常见情形中繁重的写入活动,因此 e-MLC 非常适合高性能、高存储容量和高耐久性的 SSD。

了解任何应用或 SSD 的写入耐久性较为复杂,因此 JEDEC 委员会还建议使用写入 TB 数 (TBW) 的值来指示在向 SSD 写入多少原始数据量后,SSD 中所含的 NAND 闪存就会变成不可靠的存储介质并应将驱动器废弃。

通过运用 JEDEC 建议的 JESD218A 测试方法和 JESD219 企业级工作量,将更易于阐述 SSD 制造商借助 TBW 进行的耐久性计算以及预测可应用到任何数据中心的更易理解的耐久性措施。

正如文件 JESD218 和文件 JESD219 中所述,不同应用级的工作量还会经受按大于主机实际提交写入数的量排列的写入放大因子 (WAF),并很容易产生无法管控的 NAND 闪存损耗,由一段时间内过多的写入数造成的更高 NAND 闪存 BER,以及由 SSD 上广泛分布的无效页造成的更慢性能。 在具有 LSI® SandForce® DuraWrite™ 技术的金士顿 E100 上运用的传输中压缩机制降低了整体 WAF,并将企业级应用中 NAND 闪存的额定耐久性延长。

虽然 TBW 是企业级 SSD 与客户端级 SSD 之间重要的讨论话题,但是 TBW 仅仅是 NAND 闪存级的耐久性预测模型,应将平均无故障时间 (MTBF) 作为基于设备所用组件可靠性的组件级耐久性与可靠性预测模型来进行观测。 对企业级 SSD 组件的期望包括在 SSD 预期寿命期间管理所有 NAND 闪存的电压上更为耐久和更为得力。

对企业级 SSD 的 S.M.A.R.T. 监控和报告使得能够根据当前写入放大因子和损耗程度对设备进行故障前预期寿命的轻松查询。

通常还支持对故障前故障事件(例如电力损失、物理接口发生的位错误或不均衡的损耗分布)的预测警告。

对于在标准运用期间或故障后监控 SSD 方面,客户端级 SSD 可能仅具有最低的 S.M.A.R.T. 输出量。

根据 SSD 应用级和存储容量,还可分配更高的 NAND 闪存预留存储量作为过度配置 (OP) 的备用存储量。 用户和操作系统均无法访问 OP 存储量,OP 存储量 可用作临时写入缓冲以获得更高的持续稳定性能,并在 SSD 的预期寿命期间作为有缺陷的闪存单元的替代品,以提高 SSD 的可靠性和耐久性。

结论

在企业级和客户端级 SSD 之间存在明显差异,其中包括它们的 NAND 闪存程序和擦除耐久性,以及它们为满足不同应用级工作量而采用的复杂管理技术。

了解这些与性能、可靠性和耐久性有关的应用级差异,可作为您的一项利器来最大限度降低和管理在严苛并往往是任务关键型的企业环境中发生中断性意外停机的风险。