企业与客户端 SSD 对比

过去,企业数据中心依靠其服务器中的硬盘驱动器 (HDD) 来满足高数据吞吐量和低交易延迟需求,而如今越来越多这样的企业数据中心面临性能瓶颈,他们指望将固态硬盘 (SSD) 作为可行的存储解决方案来提高数据中心的性能、效率和可靠性,并降低整体运营成本 (OpEx)。

要了解这两个 SSD 等级之间的差异,首先,我们应先区分 SSD 的两个关键组件,即闪存控制器(或简称 SSD 控制器)和用于存储数据的非易失性 NAND 闪存。

在当今市场上,SSD 和 NAND 闪存消费主要分为三个组别:
  • 消费设备(平板电脑、相机、移动电话)、
  • 客户端系统(上网本电脑、笔记本电脑、Ultrabook(超级本电脑)、AIO、台式个人电脑)、嵌入式/工业(游戏信息终端、专用系统、数码标牌)与
  • 企业计算平台(HPC、数据中心服务器)。

为企业数据中心选择合适的 SSD 存储设备会是一个长期而费劲的过程,这涉及了解众多不同的 SSD 供应商和产品类型并对它们进行资格预审,因为并非所有 SSD 和 NAND 闪存在制成时就完全一样。

制成的 SSD 可轻松延展为基于旋转磁碟的硬盘驱动器 (HDD) 的替代品或补充品,提供包括 2.5 英寸在内的多种外形尺寸,并支持各种通信协议/接口,包括串行 ATA (SATA)、串行连接 SCSI (SAS),以及最近推出的将数据传入和传出服务器中央处理器 (CPU) 的 PCIe。

可延展并不能确保所有 SSD 均长期适用于它们被指定的企业应用;如果选择不当的 SSD,由于 SSD 写入次数过多而提前报废、在预期寿命内实现低得多的持续写入性能或对存储阵列带来额外的延迟并因而需要提早进行现场更换,这常常可能导致任何初期获取的成本节省和性能效益付之东流。

我们将讨论区分企业级和客户端级 SSD 的三个主要特质,以协助您在需要更换存储或将更多存储添加到企业数据中心时作出正确的采购决策。

性能

通过运用从 SSD 控制器到 NAND 闪存芯片的多通道架构和并行访问,SSD 可为来自 CPU 的顺序和随机数据请求带来格外高的读取和写入性能。

在涉及处理数百万字节随机公司数据(包括在 CAD 技术图纸上的协作、供分析用的地震数据(例如大数据),或者访问供银行交易用的全球客户数据(例如 OLTP))的典型数据中心情形中,必须以最少的延迟量访问存储设备并可能涉及需要并发访问相同数据的客户端,而不会对响应时间造成影响。用户体验基于低延迟,低延迟可以提高用户生产效率。

客户端应用程序仅涉及单个用户或应用程序访问,在任何用户或系统操作的最短和最长响应时间(或延迟)之间具有更高的容许值。

使用 SSD 的复杂存储阵列(例如网络连接存储、直连存储或存储区域网)也会受到不相符性能的负面影响,并可导致存储阵列延迟、持续性能受到破坏,并最终危害到用户感受到的服务质量。

与客户端 SSD 不同,金士顿企业级固态硬盘不仅针对前几秒访问中的最高性能进行了优化,还使用更大的预留空间 (OP),从而在更长时段内持续提供更高的稳定状态性能。如需关于具体驱动器的更多信息,请访问金士顿网站的 请访问金士顿网站的企业级 SSD{{Footnote.N48213}} 部分

这将确保在最高流量负载期间的存储阵列性能与组织的预期 服务质量 (QoS) 要求一致。

可靠性

NAND 闪存存在许多与其自身有关的固有问题,两个最为重要的问题包括有限的预期寿命(反复写入导致 NAND 闪存单元报废)和自然发生的错误率。

在 NAND 闪存生产期间,从硅晶圆切下的每个 NAND 闪存颗粒均会经过测试并具有底层位错误率(BER 或 RBER)特性。

BER 定义了在没有得益于纠错代码 (ECC) 的情况下在 NAND 闪存中产生自然发生的位错误的比率,以及在不中断用户或系统访问的情况下 SSD 控制器使用传输过程中的高级 ECC 纠正哪些错误。

SSD 控制器纠正这些位错误的能力可以通过无法修复的位错误率 (UBER) 来说明,“这是一个数据错误率指标,等于在应用任何具体纠错方法后的每位读取的数据错误数。” {{Footnote.N48213}}

正如行业标准协会 JEDEC 于 2010 年在文件“JESD218A:固态硬盘 (SSD) 要求与耐久测试方法”以及文件“JESD219:固态硬盘 (SSD) 耐久工作量”中定义和标准化的内容所述,企业级 SSD 在许多方面与客户端级 SSD 存在差异,这些差异包括但不限于企业级 SSD 能够支持更为繁重的写入工作量、更为极端的环境条件以及从比客户端 SSD 更高的 BER 中恢复。{{Footnote.N52081}}{{Footnote.N52082}}

应用类别工作负载(参见 JESD219)有效使用(电源打开)保留使用(电源关闭)UBER 要求
客户端 客户端 40° C 8 小时/天 30° C 1 年 ≤10 -15
企业 企业 55° C 24小时/天 40° C 3 个月 ≤10 -16

表 1 - JESD218A:固态硬盘 (SSD) 要求与耐久测试方法
版权所有 JEDEC。复制内容已获 JEDEC 允许。

在使用 JEDEC 建议的 UBER 要求方面,将企业级 SSD 与客户端 SSD 进行对比,企业级 SSD 要求每处理 1 万万亿位 (~1.11 PB) 仅存在 1 位经历 1 次无法修复的位错误,而客户端级 SSD 与此相比则是每处理 1 千万亿位 (~0.11 PB) 存在 1 位错误。

金士顿企业级 SSD 还将增添额外的技术,将支持利用存储在其他 NAND 闪存颗粒中的奇偶校验数据恢复损坏的数据块(类似于驱动器组 RAID,这支持恢复具体的块,利用其它块中存储的奇偶校验数据重建此块)。

为了补充内置于金士顿企业级 SSD 的冗余数据块恢复技术,还在端到端内部保护方案中实施定期检查点创建、循环冗余检验 (CRC) 和 ECC 纠错,以确保数据在从主机经过闪存再回到主机的完整性。端到端数据保护意味着,在存储到 SSD 内存缓存

和当从 NAND 存储区写入或读取的过程中,对从主机接收的数据进行完整性检查。与企业级 SSD 针对位错误的增强型 ECC 保护类似,SSD 可能还包含用于电力损失检测的物理电路,可以管理 SSD 中的电力存储电容器。硬件中的电源故障支持检测输入到 SSD 的电源,在发生意外电力损失期间,它使用钽电容器向 SSD 电路提供临时电源,从而在 SSD 断电前完成任何内部或外部发出的未完成的写入。对于数据丢失无法恢复的应用,通常要求使用电源故障保护电路。

通过频繁地将 SSD 控制器缓存区中的数据(例如它的闪存转换表)刷新到 NAND 存储,电源故障保护也可能在 SSD 固件中实施 – 这无法保证出现电源损失时不会丢失数据,但尝试最大限度减少不安全断电的影响。固件电源故障保护还确保 SSD 在遇到不安全停机后基本可以操作。

在许多情况下,使用软件定义存储或服务器集群可能会降低对基于硬件的电源故障支持的需求,因为任何数据都复制到一台或多台服务器中的单独、独立的存储设备中。Web 规模数据中心通常不需要电源故障支持,它采用软件定义存储(事实上是 RAID 服务器)来存储相同数据的冗余副本。

耐久性

随着 NAND 闪存单元的每个编程或擦写 (P/E) 周期,闪存设备中所有 NAND 闪存可靠存储数据位的能力会下降,直至 NAND 闪存块不再能够可靠地存储数据;此时,降级或损坏的块从用户可寻址的存储池中除去,逻辑块地址会移至 NAND 闪存阵列上的新物理地址。通过使用属于 SSD 中预留空间 (OP) 存储组成部分的备用块池,新存储块替换坏存储块。

随着单元不断编程或擦除,BER 还会线性增加,出于此方面原因,必须对企业级 SSD 控制器施行一组复杂的管理技术,以管理单元在 SSD 的预期寿命期间可靠存储数据的能力。 {{Footnote.N52083}}

指定 NAND 闪存的 P/E 耐久性可能会有很大差异,这取决于当前的光刻制造工艺以及生产的 NAND 闪存的类型。

NAND 闪存类型TLCMLCSLC
架构 每个单元三位 每个单元两位 每个单元一位
存储容量 最大存储容量 大存储容量 最小存储容量
耐久性 (P/E) 最低耐久性 中等耐久性 最高耐久性
成本 $ $$ $$$$
NAND 位错误率 (BER) 约值 10^4 10^7 10^9

表 2 – NAND 闪存类型 {{Footnote.N52084}}{{Footnote.N52085}}

企业级 SSD 与客户端级 SSD 在负载周期方面也存在差别。客户端级 SSD 通常每周每天仅有 8 小时在充分利用,而企业级 SSD 必须能够承受需每周每天 24 小时访问数据中心服务器的繁重的读取或写入数据的活动。企业级 SSD 拥有 24x7 负载周期,客户端级 SSD 拥有 20/80 负载周期(在计算机应用方面,20% 的时间活跃,80% 的时间处于空闲或睡眠模式)。

理解任何应用或 SSD 的写入耐久性较为复杂,因此 JEDEC 委员会还建议使用写入 TB 数 (TBW) 的耐久性衡量指标,用于指示在向 SSD 写入多少原始主机数据量后,SSD 中所含的 NAND 闪存就会变成不可靠的存储介质并应将此驱动器废弃。
通过运用 JEDEC 建议的 JESD218A 测试方法和 JESD219 企业级工作量,将更易于阐述 SSD 制造商借助 TBW 进行的耐久性计算,并推断可应用到任何数据中心的更易理解的耐久性措施。

正如文件 JESD218 文件和 JESD219 文件中所述,不同应用级的工作量还会经受比主机实际提交写入高出数量级的写入放大因子 (WAF),并很容易产生无法管控的 NAND 闪存损耗、随着时间推移过多写入造成的更高 NAND 闪存 BER,以及由 SSD 上广泛分布的无效页造成的更慢性能。

虽然 TBW 是企业级 SSD 与客户端级 SSD 之间重要的讨论话题,但 TBW 仅仅是 NAND 闪存级的耐久性预测模型,应将平均无故障时间 (MTBF) 作为基于设备所用组件可靠性的组件级耐久性与可靠性预测模型来进行观测。对企业级 SSD 组件的期望包括在 SSD 预期寿命期间管理所有 NAND 闪存的电压上更为耐久和更为得力。所有企业级 SSD 都应至少有 100 万小时的额定 MTBF,这相当于超过 114 年!金士顿 SSD 规格制定地非常保守;看到更高的 SSD MTBF 规格并不罕见;应注意,100 万小时作为企业级 SSD 的起点绰绰有余。

对企业级 SSD 的 S.M.A.R.T. 监控和报告使得能够根据当前写入放大 (WAF) 因子和损耗程度对设备进行故障前预期寿命的轻松查询。通常还支持对故障事件(例如电力损失、物理接口发生的位错误或不均衡的损耗分布)进行故障前预测警告。可以从金士顿网站下载 Kingston SSD Manager 实用工具,并用于查看驱动器状态。

对于在标准运用期间或故障后监控 SSD 方面,客户端级 SSD 可能仅具有最低的 S.M.A.R.T. 输出量。

根据 SSD 应用级和存储容量,还可分配更高的 NAND 闪存预留存储量作为预留空间 (OP) 的备用存储量。用户和操作系统均无法访问隐藏的 OP 存储量,OP 存储量可用作临时写入缓冲以获得更高的持续性能,并在 SSD 的预期寿命期间作为有缺陷的闪存单元的替代品,以提高 SSD 的可靠性和耐久性(利用更多数量的备用块)。

结论

从 NAND 闪存编程和擦除耐久性,到为满足不同应用级工作量而采用的复杂管理技巧,企业级 SSD 和客户端级 SSD 之间存在明显差异。

了解这些与性能、可靠性和耐久性有关的应用级差异,可作为您的一项利器来最大限度降低和管理在严苛并往往是任务关键型的企业环境中发生中断性停机的风险。如有更多疑问,请联系您的金士顿代表或利用 Kingston.com 上的“咨询专家”或“技术支持聊天”功能。