SSD corporativo versus cliente

Los centros empresariales de datos, que requieren de altas capacidades de procesamiento y bajas latencias en las transacciones y que antes apoyaban sus operaciones en unidades de disco duro (HDD) en sus servidores, cada vez más se están topando con problemas de rendimiento, y están contemplando la opción que representan las unidades de estado sólido (SSD) como una solución de almacenamiento más viable que les permita aumentar su rendimiento, su eficacia y su fiabilidad, además de reducir los gastos operativos generales (OpEx).

Como un primer paso para entender las diferencias entre las dos clases de unidades SSD, debemos distinguir los dos principales componentes que las conforman: el procesador de almacenamiento de la memoria Flash y la memoria Flash no volátil de tecnología NAND que se utiliza para almacenar los datos.

Actualmente el mercado de las unidades SSD y de los componentes de memoria Flash NAND se divide en tres grupos principales:
  • Dispositivos para consumidores: tablets, cámaras, teléfonos celulares,
  • Sistemas cliente: computadoras portátiles de distintos formatos (netbook, notebook, ultrabook), dispositivos AIO todo en uno, computadoras personales de escritorio, aplicaciones integradas/industriales (quioscos de juegos, sistemas a la medida, señalización digital),
  • Plataformas empresariales de procesamiento: informática de alto rendimiento (HPC), servidores de centros de datos.

Escoger el dispositivo SSD de almacenamiento adecuado para los centros de datos empresariales pudiera ser un proceso prolongado y difícil de obtención de información y de evaluación de los múltiples proveedores de las muchas y distintas unidades SSD y de los tipos de productos. No todas las unidades SSD de memoria Flash de tecnología NAND se han creado del mismo modo.

Las unidades SSD se fabrican para que se puedan implementar de un modo sencillo, ya sea como sustitutas o como complementos de las unidades basadas en discos magnéticos rotativos (HDD). Las SSD están disponibles en distintos formatos físicos, incluido el de 2.5", y en distintos protocolos de comunicación/interfaces para la transferencia de datos a y desde la unidad central de procesamiento (CPU) del servidor host que las aloja, entre los que se incluyen el Serial ATA (SATA), el Serial Attached SCSI (SAS) y más recientemente el PCIe.

No obstante, que sean sencillas de implementar no garantiza que toda unidad SSD será adecuada en el largo plazo para la aplicación empresarial a la que se haya incorporado, y el coste de haber elegido unidades SSD incorrectas pudiera a menudo anular todo ahorro inicial y toda ventaja de rendimiento obtenidos, debido a factores tales como el desgaste prematuro por la cantidad excesiva de ciclos de escritura de datos, el enorme deterioro del rendimiento de escritura sostenida en el transcurso de su vida útil prevista y la introducción de latencia adicional en la matriz de almacenamiento, factores todos que pudieran exigir su reemplazo antes de tiempo.

En este documento vamos a ver las tres características principales que distinguen a las unidades SSD de clase empresarial de las de clase cliente, a fin de ayudarle a tomar la decisión de compra más adecuada cuando llegue la hora de sustituir o de añadir almacenamiento adicional a su centro empresarial de datos.

Rendimiento

Gracias al uso de arquitectura multicanales y del acceso en paralelo entre el controlador y los chips de memoria Flash NAND, las unidades SSD pueden proporcionar rendimientos de lectura y de escritura de datos increíblemente altos en las solicitudes emitidas por la CPU, ya sean éstas secuenciales o no secuenciales.

En un escenario usual de centro de datos que involucra el procesamiento de millones de bytes de datos empresariales a los que se tiene acceso de manera no secuencial, lo que incluye en trabajo en colaboración de dibujos técnicos de CAD, de datos de seísmos para análisis (por ejemplo, Big Data) y el acceso a datos de clientes en todo el mundo para transacciones bancarias (por ejemplo, OLTP), los dispositivos de almacenamiento deben ser accesibles con la menor cantidad de latencia y pudiera involucrar un gran número de clientes que necesiten acceso a los mismos datos de modo simultáneo sin ninguna degradación en el tiempo de respuesta. La experiencia de uso se basa en la baja latencia, ya que aumenta la productividad de los usuarios.

Las aplicaciones de la clase cliente involucran el acceso por un único usuario o aplicación a la vez. En esos casos, pudiera ser mayor la tolerancia a deltas más altas entre el tiempo de respuesta (o latencia) mínimo y el máximo, de las acciones del usuario o del sistema.

Las complejas matrices físicas de almacenamiento en las que se utilizan las unidades SSD, como las de los tipos NAS (Network Attached Storage), Direct Attached Storage y Storage Area Network, también se ven afectadas de manera adversa por diferencias en sus rendimientos individuales, que pudieran causar caos en la latencia del sistema de almacenamiento, en el rendimiento sostenido y en última instancia, en la calidad del servicio.

A diferencia de las unidades SSD de clase cliente, las unidades SSD de clase empresarial han sido optimizadas no solo para ofrecer un rendimiento máximo en los primeros pocos segundos de acceso, sino que, gracias al uso de una mayor área de sobre-dotación (OP), también ofrecen un rendimiento sostenido mayor durante periodos de tiempo más largos. En el sitio web de Kingston, en la sección de las unidades Enterprise SSD, se puede encontrar más información acerca de unidades específicas.{{Footnote.N48213}}

Lo anterior garantiza que el rendimiento de las matrices de almacenamiento siga siendo cónsono con las condiciones de calidad de servicio que esperan las organizaciones durante los momentos más álgidos de cargas de tráfico de datos.

Fiabilidad

La memoria Flash NAND se ve afectada por varias características que les son inherentes, siendo las dos más importantes su expectativa finita de vida (debido al desgaste de las celdas por los múltiples ciclos de escritura-borrado-escritura) y por otra parte su tasa de errores que se producen de manera natural.

Durante el proceso de producción de los chips de memoria Flash de tecnología NAND, que se obtienen del corte de grandes obleas de silicio, se prueba cada uno de ellos y se le asigna una cifra de tasa natural de errores de bit (tasa BER o RBER).

La tasa natural de errores de bit (BER) define con qué frecuencia se producen dichos errores en los chips Flash NAND, sin el uso de tecnologías de corrección de errores (ECC). Los controladores SSD utilizan tecnologías avanzadas de ECC (denominadas BCH ECC, Strong ECC o LDPC según cada fabricante de controladores) a fin de corregir errores sobre la marcha para que el acceso de los usuario y del sistema no se vea afectado.

La capacidad de los controladores SSD de corregir errores de bit puede ser cuantificada mediante la relación de errores de bit no corregibles (UBER), un parámetro de medición de la tasa de daños en los datos y cuyo valor es igual a la cantidad de errores por bits leídos, después de aplicar todo método incorporado de corrección de errores.{{Footnote.N48213}}

Las unidades SSD de clase empresarial difieren en varios factores de las de la clase cliente, entre otras en la capacidad de admitir mayores cargas de trabajo de escritura, resistir condiciones de entorno más extremas y brindar mayor capacidad de recuperación ante tasas BER más altas. Dichos factores fueron definidos y estandarizados por el comité JEDEC en 2010, a través de los documentos JESD218A (que habla de los requisitos y del método de prueba de la resistencia de las unidades SSD) y JESD219 (que habla de la cargas de trabajo de medición de la resistencia de las unidades SSD).{{Footnote.N52081}}{{Footnote.N52082}}

Clase de aplicacionesCarga de trabajo (consulte JESD219)Uso activo (encendida)Uso de retención (apagada)Requisito de UBER
Cliente Cliente 40° C
8 horas/día
30° C
1 año
≤10 -15
Empresarial Empresarial 55° C
24 horas/día
40° C
3 meses
≤10 -16

Tabla 1 - JESD218A: Requisitos y método de prueba de la resistencia de las unidades SSD
Copyright de JEDEC. Reproducido con el permiso del JEDEC.

A partir del requisito de UBER propuesto por el JEDEC para las unidades SSD empresariales frente a las de cliente, se exige que las primeras experimenten solamente una relación UBER de 1 error de bit no corregible por cada 10 cuatrillones de bits (equivalente a 1,11 petabytes) procesados, en comparación con las segundas cuya exigencia es de una relación UBER de 1 error de bit por cada cuatrillón de bits (equivalente a 0,11 petabytes) procesados.

Las unidades SSD de clase empresarial de Kingston incorporan además otras tecnologías, que permiten la recuperación de bloques dañados de datos con el uso de información de paridad almacenada en otros chips NAND (un procedimiento similar al de los arreglos RAID y que permite la recuperación de bloques específicos a partir de su reconstrucción con base en la información de paridad almacenada en otros bloques).

Como complemento de las tecnologías de reconstrucción de bloques de datos incorporadas a las unidades SSD de clase empresarial de Kingston, se ha implementado también un esquema de protección interna extremo a extremo, que incluyen la creación periódica de puntos de control, las pruebas cíclicas de redundancia (CRC) y la corrección de errores mediante ECC. Dicho esquema garantiza la integridad de datos entre el host hasta la memoria Flash y de vuelta al host. La protección de extremo a extremo de los datos significa que se comprueba la integridad de los datos recibidos del host al almacenarlos en la caché interna de la unidad SSD, y también cuando se escriben o se leen de las zonas de almacenamiento NAND.

Con un esquema similar al de la protección ECC mejorada contra errores de bit de las unidades SSD de clase empresarial, las unidades SSD también pudieran incorporar la tecnología Power Fail de detección de la pérdida del suministro eléctrico, basada en circuitos físicos que utilizan condensadores de almacenamiento de electricidad. La función Power Fail en hardware monitoriza la alimentación de electricidad a la SSD. Al ocurrir la pérdida de la alimentación, dicha función suministra temporalmente energía eléctrica almacenada en condensadores de tántalo, a efectos de finalizar toda escritura pendiente, ya sea emitida internamente o externamente, antes de que se apague la unidad. El circuito Power Fail de protección se exige generalmente en el caso de aplicaciones en las que la pérdida de datos es irrecuperable.

La protección Power Fail también podría estar implementada en el firmware de la unidad SSD mediante un esquema de descarga a los chips NAND de los datos almacenados en las zonas de memoria caché del controlador (por ejemplo, mediante una tabla de capa FTranslation). Este esquema no garantiza que nunca habrá pérdida de datos al interrumpirse la alimentación de electricidad, pero intenta reducir al mínimo el impacto de las interrupciones riesgosas de la potencia eléctrica. La protección Power Fail en firmware también asegura que sea improbable que se dañe irreversiblemente la unidad SSD después de una situación peligrosa de apagado.

En muchas situaciones, el uso de las tecnologías SDS (Software Defined Storage) y de clústeres de servidores podría reducir la necesidad de esquemas Power Fail basados en hardware, dado que los datos en su totalidad se reflejan en dispositivos aparte e independientes, en uno o varios servidores distintos. Los centros de datos de escala Web a menudo no incorporan los recursos Power Fail, y en cambio utilizan el almacenamiento SDS para crear, de hecho, arreglos RAID de servidores a efectos de almacenar copias redundantes de los mismos datos.

Resistencia

Todos los chips de memoria NAND contenidos en los dispositivos de almacenamiento Flash se degradan con cada ciclo de escritura-borrado-escritura (P/E), en cuanto a su capacidad de almacenar bits de datos de manera fiable. Llega el momento en que bloques de memoria NAND ya no son capaces de almacenar datos de una manera fiable y se deben eliminar del grupo de almacenamiento direccionable por el usuario. Su correspondiente dirección de bloque lógico (LBA) se traslada a una nueva dirección en la matriz física de almacenamiento de memorias Flash NAND. Nuevos bloques de almacenamiento sustituyen a los dañados. Los bloques sustitutos son los de reserva que forman parte del almacenamiento de OP (sobre-dotación) de la unidad SSD.

A medida que se realizan de manera constante operaciones de escritura, borrado y escritura en las celdas, su tasa BER también aumenta linealmente y es por esta razón que se debe implementar un conjunto complejo de técnicas de gestión en los controladores de las unidades SSD empresariales, que permitan manejar la capacidad de las celdas de almacenar datos de manera fiable durante la vida útil prevista de las unidades.{{Footnote.N52083}}

La resistencia a los ciclos de escritura-borrado-escritura de la memoria Flash NAND pudiera variar notablemente entre un chip y otro, dependiendo del proceso en uso de fabricación mediante litografía y del tipo de chip NAND producido.

Tipo de memoria Flash NANDTLCMLCSLC
Arquitectura 3 bits por celda 2 bits por celda 1 bit por celda
Capacidad Capacidad más alta Capacidad alta Capacidad más baja
Resistencia (escritura-borrado-escritura, PE) Resistencia más baja Resistencia intermedia Resistencia más alta
Coste $ $$ $$$$
Tasa aproximada de errores de bit (BER), chips NAND 10^4 10^7 10^9

Tabla 2 – Tipos de memoria Flash NAND {{Footnote.N52084}}{{Footnote.N52085}}

Las unidades SSD de clase empresarial también difieren de las de clase cliente en cuanto a su ciclo de servicio. Las SSD de clase empresarial deben ser capaces de resistir actividades intensas de escritura en las situaciones usuales de servidores de centros de datos, en las que se requiere el acceso a los datos durante las 24 horas de todos los días de la semana. En comparación, las SSD de clase cliente usualmente se utilizan solo 8 horas al día durante la semana. El ciclo de servicio de las unidades SSD de clase empresarial es 24x7, mientras que el de las de clase cliente es 20/80 (activa el 20% del tiempo, e inactiva o en modo de suspensión el 80% del tiempo que se utiliza el ordenador).

Entender la resistencia a los ciclos de escritura-borrado-escritura de toda aplicación de unidades SSD pudiera ser complejo. Es la razón por la que el comité JEDEC también propuso un parámetro de medición de la resistencia basado en la cifra de terabytes escritos (TBW), dirigido a indicar la cantidad de datos sin procesar del host que pueden escribirse en las unidades SSD antes que su memoria Flash NAND se vuelva un medio de almacenamiento no fiable y se las deba retirar de servicio.

Con el uso de los métodos de prueba JESD218A y las cargas de trabajo JESD219 de clase empresarial propuestos por el JEDEC, se hace más sencillo interpretar los cálculos basados en TBW de la resistencia prevista indicados por los fabricantes de las unidades SSD, a efectos de extrapolar un valor más comprensible de la resistencia que pueda aplicarse a todo centro de datos.

Tal como se indica en los documentos JESD218 y JESD219, las cargas de trabajo de diferentes clases de aplicaciones también pueden verse afectadas por el llamado factor de amplificación de escritura (WAF). Dicho factor multiplica en un orden de magnitud la cantidad de ciclos de escritura reales que hayan sido realmente requeridos por el host, y pudiera fácilmente originar una tasa de desgaste imposible de gestionar de las memorias NAND, una tasa BER más alta debido a la excesiva cantidad de ciclos de escritura en el transcurso del tiempo y un rendimiento más bajo debido a páginas no válidas ampliamente segregadas en la unidad SSD.

Aunque el parámetro TBW es un elemento importante del debate entre las unidades SSD de clase empresarial y las de clase cliente, el TBW es un modelo de predicción de la resistencia solo de los chips NAND. Se debe considerar que la cifra MTBF (tiempo medio entre errores) representa un modelo de predicción de la resistencia y la fiabilidad basado en la fiabilidad de todos los componentes utilizados en el dispositivo. Entre las expectativas de los componentes de las unidades SSD de clase empresarial se incluyen la mayor duración y la mayor eficacia en las gestión de los voltajes que alimentan a todas las memorias Flash NAND, durante toda la vida útil prevista de las unidades. Todas las unidades SSD deben tener una MTBF nominal de al menos un millón de horas, ¡que equivale a 114 años! Kingston publica especificaciones muy prudentes de sus unidades SSD, y no es inusual ver valores más altos de MTBF para sus unidades. Es importante observar que 1 millón de horas es un punto de partida más que suficiente para las unidades SSD de clase empresarial.

La monitorización y la generación de notificaciones S.M.A.R.T. de las SSD de clase empresarial permite que se les pueda hacer consultas de manera sencilla antes de que ocurran fallos, a efectos de estimar su expectativa de vida con base en el factor actual de amplificación de la escritura (WAF) y en el nivel de desgaste. A menudo también están incorporadas las notificaciones predictivas con anterioridad a las situaciones de fallo tales como las interrupciones de la alimentación de electricidad, errores de bit en la interfaz física y las distribuciones disparejas del desgaste. En el sitio web de Kingston se puede descargar la utilidad SSD Manager, que se utiliza para ver el estado de las unidades.

Las unidades SSD de la clase cliente sólo incorporan un mínimo de notificaciones S.M.A.R.T. de monitorización de las unidades SSD, durante el uso estándar y también después de fallos.

Con base en la clase de la aplicación y en la capacidad de la unidad SSD, se puede asignar una cantidad mayor de la memoria Flash NAND a la sobre-dotación (OP) de reserva. La capacidad de OP se oculta al acceso del usuario y del sistema operativo, y se puede utilizar como un búfer temporal de escritura a fin de lograr un rendimiento mayor en operaciones sostenidas y también como celdas de reserva de memoria Flash que sustituyan a las dañadas durante la vida útil prevista de la SSD, a efectos de reforzar su fiabilidad y resistencia (en virtud de la mayor cantidad de bloques de reserva).

Conclusión

Existen diferencias claras entre las unidades SSD de clase empresarial y de la clase cliente, las cuales van desde su resistencia a los ciclos de escritura-borrado-escritura de la memoria Flash NAND hasta sus avanzadas técnicas de gestión, que se adaptan a las cargas de trabajo de las diferentes clases de aplicaciones.

Comprender estas diferencias entre las clases de aplicaciones según se correspondan con el rendimiento, la fiabilidad y la resistencia, pudiera resultar un arma efectiva a la hora de minimizar y gestionar el riesgo de inactividad perjudicial en los entornos empresariales de alta exigencia y a menudo de misión crítica. Si tiene alguna pregunta adicional, comuníquese con su representante de Kingston o utilice las funciones de consulta a expertos (Ask An Expert) y de chat de asistencia técnica que se ofrecen en Kingston.com.