SSD empresarial versus SSD cliente

Un número creciente de centros de datos empresariales que requieren alta capacidad de proceso de datos y baja latencia en las transacciones, confiando previamente en unidades de disco duro (HDD) en sus servidores, están experimentando cuellos de botella en el rendimiento, y están considerando a las unidades de estado sólido (SSDs) como una solución viable para aumentar el rendimiento, la funcionalidad, y la confiabilidad de sus centros de datos, y para reducir en general sus gastos de operación (OpEx).

Para empezar a entender las diferencia entre las clases de SSD, tenemos que distinguir ente dos componentes claves de la SSD – el controlador de almacenamiento Flash (o simplemente llamado controlador SSD) y la memoria no volátil Flash NAND, usada para almacenar datos.

En el mercado actual, el consumo de SSD y de memoria Flash NAND se divide en tres grupos principales:
  • Dispositivos del consumidor (Tablets, cámaras, teléfonos móviles),
  • Sistemas Clientes (Netbook, notebook, Ultrabook, AIO, computadores personales de escritorio), integrado/industrial (Quiosco de juegos, sistemas construidos para un propósito, señalización digital)
  • Plataformas de computación empresarial (computación de alto rendimiento (High performance Computing o HPC en inglés), servidores de centros de datos).

Escoger el dispositivo de almacenamiento SSD adecuado para centros de datos empresariales puede ser un proceso arduo de aprendizaje y de calificación de una gran cantidad de proveedores y tipos de productos de SSD, ya que de hecho no todas las SSDs y memorias flash NAND son creadas iguales.

Las SSDs son fabricadas con el propósito de que sean fácil de implementar como un reemplazo o complemento de las unidades de disco duro (HDD) basadas en platos magnéticos rotatorios, y están disponibles en varios formatos diferentes, incluyendo 2.5", y varios protocolos/interfaces de comunicación incluyendo Serial ATA (SATA) y Serial Attached SCSI (SAS), y más recientemente PCIe para transferir datos hacia y desde la unidad central de procesamiento (CPU) de un servidor.

Ser fáciles de implementar no garantiza que todas las SSDs resulten adecuadas a largo plazo para la aplicación empresarial en la que fueron asignadas; el costo de elegir la SSD incorrecta a menudo puede rechazar las ventajas logradas inicialmente en cuanto a ahorro y rendimiento, tal como cuando las SSDs se desgasten prematuramente debido a la escritura excesiva, logran menor rendimiento de escritura sostenida a lo largo de su vida útil esperada, o introducen latencia adicional en la matriz de almacenamiento, y por lo tanto requieran un reemplazo precoz.

Discutiremos las tres principales cualidades que distinguen una SSD de clase empresarial de una de clase cliente, para ayudarlo a realizar la decisión de compra adecuada cuando llegue el momento de reemplazar o agregar mayor almacenamiento a un centro de datos empresarial.

Rendimiento

Las SSDs pueden ofrecer un rendimiento increíblemente elevado en cuanto a lectura y escritura ante las solicitudes de datos secuenciales y aleatorias desde el CPU, mediante el uso de una arquitectura multi-channel y acceso en paralelo desde el controlador SSD a los chips Flash NAND.

En un escenario típico de centro de datos que implique el procesar millones de bytes de datos aleatorios de una empresa, incluyendo colaboración en planos técnicos CAD, datos sísmicos para análisis (por ejemplo, Big Data) o acceso a datos de clientes en todo el mundo para operaciones bancarias (por ejemplo, OLTP), los dispositivos de almacenamiento deben resultar accesibles con la menor cantidad de latencia; pueden involucrar a un gran número de clientes que necesitan acceso a la misma pieza de datos simultáneamente, sin degradación alguna en el tiempo de respuesta. La experiencia del usuario se basa en tener baja latencia, lo que aumenta la productividad del usuario.

Una aplicación cliente sólo implicará un solo usuario o acceso a la aplicación, con un delta más tolerable entre los tiempos de respuesta máximo y mínimo (o de latencia) para las acciones del usuario o del sistema.

Las matrices de almacenamiento complejas usando SSDs (por ejemplo, almacenamiento conectado a red - NAS, almacenamiento de conexión directa - DAS o red de área de almacenamiento - SAN) también resultan afectadas por un rendimiento disparejo, y pueden causar estragos en la latencia de matrices de almacenamiento, en el rendimiento sostenido y en última instancia, en la calidad de servicio tal como la perciben los usuarios.

A diferencia de las SSDs cliente, las SSDs de clase empresarial de Kingston, están optimizadas no solamente para entregar el máximo rendimiento en los primeros segundos de acceso, sino que al usar un área de aprovisionamiento (OP) más grande también ofrecen un mayor rendimiento sostenido, durante períodos más prolongados. Mayor información acerca de los dispositivos específicos puede encontrarse en el sitio web de Kingston bajo SSDs empresariales (Enterprise).{{Footnote.N48213}}

Esto garantiza que el rendimiento del arreglo de almacenamiento se mantenga consistente con los requerimientos de Calidad del servicio (QoS) esperados por la organización durante los tiempos de cargas de tráfico pico.

Confiabilidad

La memoria Flash NAND tiene un número de problemas inherentes asociados; los dos más importantes incluyen una vida útil finita a medida que las celdas NAND se desgastan durante escrituras repetidas, y una tasa de error que ocurre naturalmente.

Durante el proceso de producción de memoria flash NAND, cada bloque cortado de los wafers de silicona de la flash NAND es probado y caracterizado con una tasa de errores de bits en bruto (BER o RBER).

El BER define la tasa en la que se presentan errores de bits que ocurren naturalmente en la memoria flash NAND, sin el beneficio de código de corrección de errores (ECC), y los cuales el controlador SSD corrige inmediatamente usando un ECC avanzado simultaneo o al vuelo (llamado típicamente BCH ECC, ECC fuerte, o corrección de errores LDPC por los diferentes fabricantes de controladores SSD), sin interrumpir el acceso del usuario o del sistema.

La capacidad del controlador SSD para corregir estos errores de bits puede interpretarse por medio de la Tasa de errores de bits incorregibles (UBER), "una métrica para la tasa de corrupción de datos igual al número de errores de datos por bit leídos después de aplicar cualquier método de corrección de error especificado”.{{Footnote.N48213}}

Como ha sido definido y estandarizado por la asociación de estándares de la industria, el Comité JEDEC en 2010 mediante los documentos JESD218A:Requerimientos y método de prueba de resistencia para Unidades de estado sólido (SSD) y JESD219:Cargas de trabajo de resistencia para Unidades de estado sólido (SSD), la clase empresarial difiere en varios aspectos de la SSD de clase cliente, incluyendo pero sin limitarse a, su capacidad para soportar cargas de trabajo de escritura más pesadas, condiciones de trabajo más extremas y la recuperación ante una BER mayor que la de una SSD cliente.{{Footnote.N52081}}{{Footnote.N52082}}

Clase de aplicaciónCarga de trabajo (ver JESD219)Uso activo (encendido)Uso en espera (apagado)Requerimiento UBER
Cliente Cliente 40° C 8 hrs/día 30° C 1 año ≤10 -15
Empresarial Empresarial 55° C 24hrs/día 40° C 3 meses ≤10 -16

Tabla 1 - JESD218A: Requerimientos y método de prueba de resistencia para unidades de estado sólido (SSD)
Copyright JEDEC. Reproducida con permiso de JEDEC.

Utilizando el requisito de UBER propuesto por JEDEC para una SSD empresarial contra una SSD cliente, se espera que una SSD de clase empresarial experimente sólo 1 error de bit irrecuperable a una tasa de 1 error de bit cada 10 cuatrillones de bits (~1,11 Peta bytes) procesados, en comparación con 1 error de bit por cada 1 cuatrillón de bits de una SSD clase cliente(~0,11 Peta bytes) procesados.

Las SSDs empresariales de Kingston también agregarán tecnologías adicionales que permitirán la recuperación de bloques de datos corruptos usando paridad de datos de almacenamiento en otro dispositivo NAND (similar a los dispositivos RAIDing, lo que permite la recuperación de bloques específicos que pueden ser reconstruidos a partir de los puntos de paridad almacenados en otros bloques).

Para complementar las tecnologías de recuperación de bloques de datos redundantes incorporadas en las SSDs empresariales de Kingston, la creación de puntos de verificación periódicos, la verificación de redundancia cíclica (CRC), y la corrección de error de ECC también están implementadas en un esquema de protección interno de extremo a extremo, para garantizar la integridad de los datos desde el huésped, a través del flash y devuelta la huésped. La protección de datos de extremo a extremo quiere decir que los datos que se reciben del huésped son verificados en cuanto a integridad durante su almacenamiento en el caché interno de las SSD, y cuando sea escrita o leída desde las áreas de almacenamiento NAND.

De forma similar a la protección mejorada por ECC contra errores bit de las SSDs de clase empresarial, las SSDs también podrían incluir circuitos físicos para la detección de pérdidas de energía que maneja los condensadores de almacenamiento de energía en las SSDs. El soporte ante fallas de energía en el hardware monitorea la energía entrante a la SSD, y durante las pérdidas sorpresivas de energía, provee con energía temporal al circuito de la SSD usando condensadores de tantalio para completar cualesquiera escrituras en proceso ordenadas internas o externas, antes de apagar la SSD. Normalmente el circuito de protección ante la falta de energía es necesario para aplicaciones donde la pérdida de datos no es recuperable.

La protección ante la falta de energía también puede ser implementada en el Firmware de la SSD, al transferir frecuentemente los datos en las áreas del caché del controlador SSD (p.ej., su tabla para el nivel de Flash Translation) al almacenamiento NAND – esto no garantiza que ningún dato se perderá durante un evento de pérdida de energía, pero intenta minimizar el impacto de apagados no seguros. La protección ante la falta de energía por medio de Firmware también asegura que la SSD tenga mínimas posibilidades de volverse inoperable después de sufrir un apagado no seguro.

En muchas situaciones, el uso de Software Defined Storage o clusters de servidores puede reducir la necesidad de soporte basado en Hardware ante falla de energía, ya que cualquier información es replicada en un sistema de almacenamiento separado e independiente en un servidor o unos servidores diferentes. Muchas veces los centros de datos a escala web usan como soporte ante falla de energía el Software Defined Storage, en efecto, hacia servidores RAID para almacenar copias redundantes de los mismos datos.

Resistencia

Toda memoria flash NAND contenida en dispositivos de almacenamiento flash experimenta degradación en su capacidad para almacenar confiablemente bits de datos, con cada ciclo de programación o borrado (P/B) de una celda de memoria flash NAND, hasta el punto en que la memoria flash NAND ya no puede almacenar datos confiablemente; en este punto se remueve un bloque degradado o dañado de la acumulación de almacenamiento direccionable por parte del usuario, y la dirección lógica del bloque (LBA) es desplazada a una nueva dirección física sobre el arreglo de almacenamiento de memoria flash NAND. Un nuevo bloque de almacenamiento reemplaza al dañado, usando la acumulación de bloques de repuesto que es parte del almacenamiento para sobreaprovisionamiento (OP) en la SSD.

La BER también aumenta linealmente a medida que la celda es constantemente programada o borrada, y es por esta razón que se debe implementar un complejo conjunto de técnicas de gestión en el controlador de la SSD empresarial, a fin de gestionar la capacidad de la celda para almacenar datos de forma confiable a lo largo de la vida útil de la SSD. {{Footnote.N52083}}

La resistencia de P/B de una memoria flash NAND dada puede variar sustancialmente dependiendo del proceso actual de fabricación de la litografía y el tipo de memoria flash NAND producida.

Tipo de memoria flash NANDTLCMLCSLC
Arquitectura 3 bits por celda 2 bits por celda 1 bit por celda
Capacidad La capacidad más alta Alta capacidad La capacidad más baja
Resistencia (P/B) La resistencia más baja Resistencia mediana La resistencia más alta
Costo $ $$ $$$$
Tasa de errores de bit (BER) de NAND, aprox. 10^4 10^7 10^9

Tabla 2 – Tipos de memoria Flash NAND Flash {{Footnote.N52084}}{{Footnote.N52085}}

Las SSDs empresariales también variarán de las SSDs Cliente en su ciclo de servicio. Una SSD clase empresarial debe ser capaz de soportar actividades de escritura y lectura pesadas, dentro de escenarios típicos para un servidor de centro de datos que requiera acceso a los datos durante la totalidad de las 24 horas de cada día de la semana, comparada con una SSD de clase de cliente que normalmente sólo se utiliza durante 8 horas al día a la semana. Las SSDs empresariales tienen un ciclo de servicio 24x7 comparada con un ciclo de servicio 20/80 de las SSDs clientes (20% del tiempo activa, 80% en modo descanso o suspendido durante el uso del computador).

Puede resultar complejo el entender la resistencia de escritura de cualquier aplicación o SSD; es por eso que el Comité JEDEC también propuso una métrica de medición de resistencia utilizando el valor de Terabytes escritos (TBW), con el fin de indicar la cantidad de datos huésped en bruto que se pueden escribir en la SSD antes que la memoria flash NAND contenida en la SSD se convierta en un medio de almacenamiento no confiable y la unidad deba ser retirada.

Al usar los métodos de prueba de JESD218A y las cargas de trabajo de clase empresarial de JESD219 propuestos por JEDEC se facilita el interpretar un cálculo de resistencia de los fabricantes de SSD a través de los TBW y el extrapolar una medida de resistencia, más comprensible, que pueda aplicarse a cualquier centro de datos.

Como se ha señalado en los documentos JESD218 y JESD219, diferentes cargas de trabajo de acuerdo a la clase de aplicación pueden sufrir también de un Factor de amplificación de escritura (WAF) en un orden de magnitud mayor que las operaciones de escritura enviadas por el huésped, y llevar fácilmente a un inmanejable desgaste de la memoria flash NAND, a una BER mayor en la memoria flash NAND proveniente de excesivas operaciones de escritura a medida que pasa el tiempo, y a un rendimiento más lento proveniente de páginas no válidas que están ampliamente distribuidas en la unidad SSD.

Mientras que el TBW es un tema importante de discusión entre SSDs clase empresarial y clase cliente, el TBW es sólo un modelo de predicción de resistencia a nivel de la memoria flash NAND, y el tiempo medio entre fallas (MTBF) debe ser visto como un modelo de predicción de resistencia y confiabilidad a nivel de componente, basado en la confiabilidad de los componentes utilizados en el dispositivo. La expectativa para los componentes de una SSD clase empresarial incluye el durar más tiempo y trabajar más duro en la administración de los voltajes de toda la memoria flash NAND, a lo largo de la vida útil con la que cuenta la unidad SSD. Todas las SSDs empresariales deberán ser calificadas al alcanzar por los menos un millón de horas como MTBF, ¡lo que se traduce a cerca de 114 años! Kingston otorga especificaciones a sus SSDs de forma muy conservadora y no es poco común ver especificaciones de MTBF más altas en SSDs; es importante tener en cuenta que 1 millón de horas es más que suficiente como punto de partida de SSDs empresariales.

El monitoreo y generación de informes S.M.A.R.T. sobre las SSDs clase empresarial permite que el dispositivo sea fácilmente consultado antes que se produzca la falla, en cuanto a la vida útil basada en el factor de amplificación de escritura (WAF) actual y el nivel de desgaste. A menudo también son compatibles las advertencias predictivas sobre falla inminente para eventos de fallas tales como la pérdida de energía, los errores de bits provenientes de la interfaz física o la distribución dispareja del desgaste. La herramienta Kingston SSD Manager puede descargarse del sitio web de Kingston y usada para ver el estado de la unidad

Las SSDs clase de Cliente pueden ofrecer solamente la salida mínima de S.M.A.R.T. con el fin de monitorear la SSD durante el uso estándar o en forma posterior a la falla.

Dependiendo de la clase de aplicación y la capacidad de la SSD, también puede asignarse una mayor capacidad de reserva de memoria flash NAND como capacidad excedente de aprovisionamiento en exceso (OP). La capacidad de OP está oculta al acceso para el usuario y el acceso del sistema operativo y puede ser utilizada como un búfer temporal de escritura para lograr un mayor rendimiento sostenido, y como un reemplazo de las celdas de memoria Flash defectuosas durante la vida útil de la unidad SSD, con el fin de mejorar la confiabilidad y la resistencia de la SSD (con una mayor número de bloques de repuesto).

Conclusión

Existen diferencias distintivas entre las SSDs clase empresarial y cliente, que van desde la resistencia de su memoria Flash NAND, a la programación y al borrado hasta sus técnicas avanzadas de administración para adecuarse a diversas cargas de trabajo de las clases de aplicaciones.

El comprender estas diferencias presentes en la clase de aplicaciones en lo que respecta al rendimiento, confiabilidad y resistencia, puede resultar una herramienta eficaz para minimizar y gestionar el riesgo de tiempo de inactividad disruptivo en el entorno empresarial, el cual es exigente y a menudo de misión crítica. Para más información, por favor póngase en contacto con su representante de Kingston o use las herramientas Pregunte a un Experto o Chat de Asistencia Técnica en Kingston.com.

Artículos relacionados