SSD empresarial versus SSD cliente

Profesional frente a una pared con dos flechas blancas, apuntando a la izquierda y a la derecha.

Un número cada vez mayor de centros de datos que requieren un alto rendimiento de los datos y una baja latencia de las transacciones y que antes dependían de las unidades de disco duro (HDD) en sus servidores se encuentran ahora con cuellos de botella en el rendimiento. Buscan las unidades de estado sólido (SSD) como solución para aumentar el rendimiento, la eficiencia y la fiabilidad de sus centros de datos, así como para reducir los gastos operativos generales (OpEx).

Para entender las diferencia entre las clases de SSD, distinguimos los dos componentes clave de una SSD: el controlador de almacenamiento Flash (o simplemente llamado controlador SSD) y la memoria no volátil Flash NAND, usada para almacenar datos.

En el mercado actual, el consumo de SSD y de memoria Flash NAND se divide en tres grupos principales:
  • Dispositivos del consumidor (Tablets, cámaras, teléfonos móviles),
  • Sistemas Clientes (Netbook, notebook, Ultrabook, AIO, computadores personales de escritorio), integrado/industrial (Quiosco de juegos, sistemas construidos para un propósito, señalización digital)
  • Plataformas de computación empresarial (computación de alto rendimiento, o High performance Computing o HPC en inglés, servidores de centros de datos).

Escoger el dispositivo de almacenamiento SSD adecuado para centros de datos empresariales puede ser un proceso arduo de aprendizaje y de calificación de una gran cantidad de proveedores y tipos de productos de SSD, ya que de hecho no todas los SSDs y memorias flash NAND son creadas iguales.

Los SSDs se fabrican para que puedan sustituir o complementar fácilmente a las unidades de disco duro y están disponibles en diferentes formatos, como 2,5", con protocolos e interfaces de comunicación como Serial ATA (SATA), Serial Attached SCSI (SAS) y, más recientemente, NVMe PCIe para transferir datos desde y hacia la unidad central de procesamiento (CPU) de un servidor.

Ser fáciles de implementar no garantiza que todos los SSDs resulten adecuados a largo plazo para la aplicación empresarial a la que fueron asignados; el costo de elegir el SSD incorrecto a menudo puede rechazar las ventajas logradas inicialmente en cuanto a ahorro y rendimiento, tal como cuando los SSDs se desgastan prematuramente debido a la escritura excesiva, logrando menor rendimiento de escritura sostenida a lo largo de su vida útil esperada, o introducen latencia adicional en la matriz de almacenamiento, y por lo tanto requieren un reemplazo precoz.

Discutiremos las tres principales cualidades que distinguen un SSD de clase empresarial de uno de clase cliente, para ayudarlo a realizar la decisión de compra adecuada cuando llegue el momento de reemplazar o agregar almacenamiento a un centro de datos.

Rendimiento

Los SSDs pueden ofrecer un rendimiento increíblemente elevado en cuanto a lectura y escritura ante las solicitudes de datos secuenciales como aleatorias desde el CPU, mediante una arquitectura multicanal y acceso en paralelo desde el controlador SSD a los chips Flash NAND.

En un escenario típico de centro de datos que implique el procesar millones de bytes de datos aleatorios de una empresa, incluyendo colaboración en planos técnicos CAD, datos sísmicos para análisis (por ejemplo, Big Data) o acceso a datos de clientes en todo el mundo para operaciones bancarias (por ejemplo, OLTP), los dispositivos de almacenamiento deben resultar accesibles con la menor cantidad de latencia; que puede implicar que muchos clientes necesiten acceder al mismo dato simultáneamente sin que se degrade el tiempo de respuesta. La experiencia del usuario se basa en tener baja latencia, lo que aumenta la productividad del usuario. Multiplique esto entre toda una fuerza laboral, y podrá ver cómo los beneficios de la baja latencia pueden acumularse rápidamente.

Una aplicación cliente sólo implicará un solo usuario o acceso a la aplicación, con un delta más tolerable entre los tiempos de respuesta máximo y mínimo (o de latencia) para las acciones del usuario o del sistema.

Las matrices de almacenamiento complejas usando SSDs (por ejemplo, almacenamiento conectado a red - NAS, almacenamiento de conexión directa - DAS o red de área de almacenamiento - SAN) también resultan afectadas por un rendimiento disparejo, y pueden causar estragos en la latencia de matrices de almacenamiento, en el rendimiento sostenido y en última instancia, en la calidad de servicio tal como la perciben los usuarios.

A diferencia de los SSDs cliente, los SSDs de clase empresarial de Kingston, están optimizados no solamente para entregar el máximo rendimiento en los primeros segundos de acceso, sino que utilizando una mayor área sobre aprovisionada (OP), también ofrecen un mayor rendimiento sostenido en estado estable durante períodos de tiempo más largos. Encontrará mayor información acerca de unidades específicas en el sitio web de Kingston, en la sección SSDs empresariales (Enterprise SSD).1

Esto garantiza que el rendimiento del arreglo de almacenamiento se mantenga consistente con los requerimientos de Calidad del servicio (QoS) esperados por la organización durante los tiempos de cargas de tráfico pico.

Una consola LED montada en rack en una sala de servidores.

Confiabilidad

La memoria NAND Flash tiene varios problemas inherentes asociados. Los dos más importantes incluyen una esperanza de vida finita a medida que las celdas NAND Flash se desgastan durante las escrituras repetidas y una tasa de error natural.

Durante el proceso de producción de memoria flash NAND, cada bloque cortado de la oblea de silicio de la flash NAND es probado y caracterizado con una tasa de errores de bits en bruto (BER o RBER).

El BER define la tasa en la que se presentan errores de bits que ocurren naturalmente en la memoria flash NAND, sin el beneficio de código de corrección de errores (ECC), y los cuales el controlador SSD corrige inmediatamente usando un ECC avanzado simultaneo o al vuelo (llamado típicamente BCH ECC, ECC fuerte, o corrección de errores LDPC por los diferentes fabricantes de controladores SSD), sin interrumpir el acceso del usuario o del sistema.

La capacidad del controlador SSD para corregir estos errores de bits puede interpretarse por medio de la Tasa de errores de bits incorregibles (Uncorrectable Bit Error Ratio o UBER), "una métrica para la tasa de corrupción de datos igual al número de errores de datos por bit leídos después de aplicar cualquier método de corrección de error especificado”. 1

Como ha sido definido y estandarizado por la asociación de estándares de la industria, el Comité JEDEC en 2010 mediante los documentos JESD218A:Requerimientos y método de prueba de resistencia para Unidades de estado sólido (SSD) y JESD219: Cargas de trabajo de resistencia para Unidades de estado sólido (SSD), la clase empresarial difiere en varios aspectos del SSD de clase cliente, incluyendo pero sin limitarse a, su capacidad para soportar cargas de trabajo de escritura más pesadas, condiciones de trabajo más extremas y la recuperación ante una BER mayor que el de un SSD cliente.23

Clase de aplicaciónCarga de trabajo (ver JESD219)Uso activo (encendido)Uso en espera (apagado)Requerimiento UBER
Cliente Cliente 40° C 8 hrs/día 30° C 1 año ≤10 -15
Empresarial Empresarial 55° C 24hrs/día 40° C 3 meses ≤10 -16

Tabla 1 - JESD218A: Requerimientos y método de prueba de resistencia para unidades de estado sólido (SSD)
Copyright JEDEC. Reproducida con permiso de JEDEC.

Utilizando el requisito de UBER propuesto por JEDEC para un SSD empresarial contra un SSD cliente, se espera que un SSD de clase empresarial experimente sólo 1 error de bit irrecuperable a una tasa de 1 error de bit cada 10 cuatrillones de bits (~1,11 Peta bytes) procesados, en comparación con 1 error de bit por cada 1 cuatrillón de bits de un SSD clase cliente (~0,11 Peta bytes) procesados.

Los SSDs empresariales de Kingston también agregarán tecnologías adicionales que permitirán la recuperación de bloques de datos corruptos usando paridad de datos almacenados en otras matrices NAND (al igual que las unidades RAID, esto permite la recuperación de bloques específicos que pueden reconstruirse con los datos de paridad almacenados en otros bloques).

Para complementar las tecnologías de recuperación de bloques de datos redundantes incorporadas en los SSDs empresariales de Kingston, la creación de puntos de verificación periódicos, la verificación de redundancia cíclica (Cyclic Redundancy Check o CRC), y la corrección de error de ECC también están implementadas en un esquema de protección interno de extremo a extremo, para garantizar la integridad de los datos desde el huésped, a través del flash y devuelta la huésped. La protección de datos de extremo a extremo quiere decir que los datos que se reciben del huésped son verificados en cuanto a integridad durante su almacenamiento en el caché interno de los SSDs, y cuando sea escrito o leído desde las áreas de almacenamiento NAND.

Al igual que los SSDs de clase empresarial que mejoran la protección ECC contra errores de bits, los SSDs también pueden contener circuitos físicos para la detección de pérdidas de energía que gestionan los condensadores de almacenamiento de energía en los SSDs. El soporte ante fallas de energía en el hardware monitorea la energía entrante al SSD, y durante las pérdidas sorpresivas de energía, provee con energía temporal al circuito del SSD usando condensadores para completar cualquier escritura pendiente emitida interna o externamente antes de apaga el SSD. Los circuitos de Protección en caso de pérdida de energía (PLP) suelen ser necesarios para aplicaciones en las que la pérdida de datos no es recuperable.

La Protección en caso de pérdida de energía también puede ser implementada en el Firmware del SSD, al transferir frecuentemente los datos en las áreas del caché del controlador SSD ( (por ejemplo, su tabla Flash Translation Layer Table) al almacenamiento NAND; esto no garantiza que no se pierdan datos durante un evento de pérdida de alimentación, pero intenta minimizar el impacto de los apagados no seguros. La Protección en caso de pérdida de energía por medio de Firmware también asegura que el SSD quede inoperativo después de sufrir un apagado no seguro.

En muchas situaciones, el uso de Software Defined Storage o clusters de servidores puede reducir la necesidad de soporte basado en Hardware ante falla de energía, ya que cualquier información es replicada en un sistema de almacenamiento separado e independiente en un servidor o unos servidores diferentes. Muchas veces los centros de datos a escala web usan como soporte ante falla de energía el Software Defined Storage hacia servidores RAID para almacenar copias redundantes de los mismos datos.

Resistencia

Un profesional señala un hexágono en un gráfico superpuesto de hexágonos, cada uno con un símbolo de conceptos tecnológicos como computación en nube.

Toda memoria flash NAND contenida en dispositivos de almacenamiento flash experimenta degradación en su capacidad para almacenar confiablemente bits de datos, con cada ciclo de programación o borrado (P/B) de una celda de memoria flash NAND, hasta el punto en que la memoria flash NAND ya no puede almacenar datos confiablemente; en este punto se remueve un bloque degradado o dañado de la acumulación de almacenamiento direccionable por parte del usuario, y la dirección lógica del bloque (LBA) es desplazada a una nueva dirección física sobre el arreglo de almacenamiento de memoria flash NAND. Un nuevo bloque de almacenamiento reemplaza al dañado, usando la acumulación de bloques de repuesto que es parte del almacenamiento para sobreaprovisionamiento (OP) en la SSD.

Dato che le celle di memoria sono costantemente soggette a cicli di programmazione e cancellazione, anche il valore del BER tende a crescere in modo lineare; ed è per questo motivo che è necessario implementare una serie di complesse tecnologie di gestione sul controller dell'SSD, al fine di gestire in modo ottimale la capacità delle celle di memoria di conservare i dati durante l'intero ciclo di vita stimato del drive SSD.4

La resistencia de P/B de una memoria flash NAND dada puede variar sustancialmente dependiendo del proceso actual de fabricación de la litografía y el tipo de memoria flash NAND producida.

Tipo de memoria flash NANDQLCTLCMLCSLC
Arquitectura 4 bits por celda 3 bits por celda 2 bits por celda 1 bit por celda
Capacidad La capacidad más alta Mayor capacidad Alta capacidad La capacidad más baja
Resistencia (P/B) La resistencia más baja Menor resistencia Resistencia mediana La resistencia más alta
Costo $ $$ $$$ $$$$
Tasa de errores de bit (BER) de NAND, aprox. 10^4 10^4 10^7 10^9

Tabla 2 – Tipos de memoria Flash NAND Flash 56

Gli SSD di classe enterprise si differenziano da quelli di classe client anche rispetto ai relativi cicli di lavoro. Un SSD di classe enterprise deve essere in grado di sostenere intensi processi di lettura o scrittura, negli scenari tipici dei server utilizzati nei data center, con un impiego costante 24/7. Questo dato va confrontato con quello degli SSD di classe client, che vengono tipicamente utilizzati per 8 ore al giorno durante la settimana.

Gli SSD di classe enterprise si caratterizzano per cicli di lavoro costanti 24/7, rispetto agli SSD client che hanno cicli di lavoro di tipo 20/80 (20% del tempo attivi e 80% in pausa o in modalità sospensione durante l’uso del computer).

Comprendere i fattori che determinano la resistenza di un SSD ai cicli di scrittura può rappresentare un'operazione complessa. Ecco perché il comitato del JEDEC ha anche proposto un metodo di misurazione della durata che utilizza un parametro basato sui TeraByte scritti (TBW), che indica la quantità di dati grezzi Host che può essere scritta su un SSD prima che la memoria NAND Flash contenuta nel drive SSD diventi inaffidabile e richieda la sostituzione del drive.

Utilizzando le procedure proposte dai documenti JEDEC, JESD218A "Testing methods" (Metodi di test) e ESD219 "Enterprise class workloads" (Carichi di lavoro per dispositivi di classe aziendale), diventa semplice interpretare i calcoli di durata effettuati dai produttori di drive SSD attraverso il parametro TBW, per poi estrapolare e convertire i dati di durata in una forma maggiormente comprensibile, applicabile a qualunque data center.

Come indicato nei documenti JESD218 e JESD219, gli impieghi di carichi di lavoro relativi a classi di applicazioni differenti possono anche essere influenzati da un fattore di amplificazione di scrittura (WAF), con un ordine di grandezza superiore a quello delle operazioni di scrittura effettive inviate dal dispositivo host. Ciò può facilmente causare fenomeni non gestibili di usura delle memorie NAND Flash, elevati valori BER delle memorie NAND Flash a causa degli eccessivi cicli di scrittura nel tempo, nonché un rallentamento delle prestazioni determinato dalla presenza di elevate quantità di pagine non valide distribuite sul disco SSD.

Sebbene il TBW sia un argomento importante in termini di comparazione tra gli SSD di classe enterprise e quelli destinati al segmento client, esso rappresenta unicamente un modello predittivo che indica il livello di durata di una determinata memoria NAND Flash. Il tempo medio fra i guasti (MBTF) può essere considerato come un modello predittivo indicante il livello di affidabilità e durata dei componenti basato sull'affidabilità dei componenti utilizzati dal dispositivo. Le aspettative relative ai componenti utilizzati sugli SSD di classe enterprise sono concentrate su elevata durata e alta resistenza nella gestione delle tensioni che attraversano la memoria NAND Flash, piuttosto che sulla durata del ciclo di vita stimata degli SSD. Tutti gli SSD di classe enterprise dovrebbero attestarsi a un valore MTBF nominale di 2 milione di ore, il che vuol dire oltre 230 anni! Le specifiche degli SSD di Kingston riportano dati molto prudenti, eppure non è raro vedere valori MTBF ancora più elevati sui drive SSD di Kingston; è importante in ogni caso sapere che il valore di 2 milione di ore è molto più che un buon punto di partenza per un SSD di classe enterprise.

Le funzioni di monitoraggio e reporting S.M.A.R.T integrate negli SSD di classe enterprise consentono, con la massima semplicità, di analizzare il dispositivo per valutare la presenza di sintomi che indichino un imminente malfunzionamento e di determinarne la durata stimata, sulla base del fattore di amplificazione in scrittura (WAF) corrente e del livello di usura rilevato. Spesso questi dispositivi supportano anche le funzionalità di notifica predittiva relative ai malfunzionamenti che indicano guasti imminenti, come le perdite di potenza, gli errori dei bit presenti sull'interfaccia fisica o la presenza di una distribuzione dell'usura non uniforme. Per controllare lo stato di un SSD è possibile scaricare l’applicazione Kingston SSD Manager dal sito web di Kingston.

Gli SSD di classe client offrono invece solamente le funzionalità S.M.A.R.T minime richieste per il monitoraggio dei drive durante il normale utilizzo, oppure dopo che il guasto si è verificato.

A seconda della classe dell'applicazione e della capacità dell'SSD è anche possibile allocare una maggiore quantità di memoria di riserva sulla memoria NAND Flash, da utilizzare come capacità di riserva avente funzioni di over provisioning (OP). La capacità di over provisioning (OP) viene nascosta all'utente e all'accesso da parte del sistema operativo. Inoltre può essere utilizzata come buffer di scrittura temporaneo per garantire performance elevate per tempi prolungati, nonché fungere da memoria sostitutiva per compensare eventuali celle di memoria Flash difettose, durante il ciclo di vita del drive SSD, al fine di ottimizzare l'affidabilità e la durata dello stesso (grazie a un maggior numero di celle disponibili).

Conclusión

Existen diferencias distintivas entre los SSDs clase empresarial y cliente, que van desde la resistencia a la programación y borrado de su memoria NAND Flash hasta sus complejas técnicas de gestión para adaptarse a diferentes cargas de trabajo de clase de aplicación.

Comprender estas diferencias en las clases de aplicaciones puede ser una herramienta eficaz para minimizar y gestionar el riesgo de tiempos de inactividad perjudiciales en el exigente y a menudo crítico entorno empresarial.

Si tiene más preguntas o desea obtener más información sobre SSD empresariales de Kingston, póngase en contacto con su representante de Kingston, nuestro equipo de Pregunte a un experto o nuestro chat de soporte técnico.

Videos Relacionados

Artículos relacionados