Memoria
Dischi a stato solido
Drive USB
Schede Flash
Supporto
Ricerca memorie

Best Practice

Le differenze tra SSD per impieghi aziendali e SSD client

Sempre più centri dati aziendali, che richiedono elevati throughput dati e basse latenze di transazione e che prima facevano affidamento sui tradizionali hard disk (HDD) per i propri server, si trovano ora a dover fronteggiare colli di bottiglia prestazionali e pertanto si stanno orientando sempre più verso soluzioni basate su dischi a stato solido (SSD), come soluzione alternativa per incrementare prestazioni, efficienza e affidabilità, oltre che per minimizzare i costi di esercizio complessivi (OpEx).

Per iniziare a comprendere le differenze tra le differenti classi di SSD è prima necessario distinguere i due componenti chiave di un disco SSD, ossia il processore di storage Flash e la memoria Nand Flash non volatile utilizzata per la memorizzazione dei dati.

Attualmente, sul mercato il consumo di dischi SSD e di memorie NAND Flash si suddivide in tre categorie principali: dispositivi consumer (tablet, fotocamere, telefoni cellulari), dispositivi client (netbook, notebook, ultrabook, all in one e personal computer desktop), computer embedded/industriali (chioschi per gaming) e computer per ambienti aziendali (HPC e server per centri dati).

Tuttavia, la scelta del dispositivo di storage SSD ideale per i centri dati aziendali può essere un processo lungo e complicato, che richiede la conoscenza e la valutazione di una moltitudine di dispositivi SSD di marche e tipologie differenti, in quanto non tutti gli SSD e le memorie NAND Flash sono uguali.

I dischi SSD sono realizzati per essere facilmente implementabili come unità che sostituiscono o si affiancano ai tradizionali hard disk a piatti magnetici (HDD) e sono disponibili in un'ampia gamma di fattori di forma differenti, tra cui il formato da 2,5", e con svariati protocolli di comunicazione/interfacce, tra cui quelle Seria ATA (SATA) e Serial Attached SCSI (SAS), per il trasferimento dei dati da e verso l'unità di elaborazione centrale (CPU) di un server.

Tuttavia, la semplicità di implementazione non offre la certezza che, a lungo termine, tutti gli SSD si dimostrino adeguati alle applicazioni aziendali e cui sono destinati. I costi legati alla scelta di un disco SSD non adeguato spesso annullano il risparmio iniziale e i vantaggi prestazionali offerti da questi dispositivi; ciò accade per esempio quando un disco SSD si usura prematuramente a causa delle eccessive operazioni di scrittura a cui è stato sottoposto, oppure quando le operazioni di scrittura eseguite sono notevolmente inferiori a quelle previste in rapporto al suo ciclo di vita stimato, oppure ancora quando il disco causa incrementi dei tempi di latenza nell'array di storage, imponendo la necessità di una sostituzione anticipata.

In questo documento, discuteremo le tre principali qualità che distinguono un disco SSD di classe aziendale da un disco SSD destinato a dispositivi client, con l'obiettivo di supportare gli utenti nell'acquisto del dispositivo più adatto alle loro esigenze quando si presenta la necessità di sostituire o aggiungere ulteriore capacità di storage a un centro dati aziendale.

Prestazioni

I dischi SSD sono in grado di garantire prestazioni incredibilmente elevate in lettura e scrittura, sia nel caso di richieste dati sequenziali, sia in caso di richieste randomiche da parte della CPU, attraverso l'uso di un'architettura multicanale con accesso parallelo da parte della FSP verso i chip della NAND Flash.

Nel caso di un ambiente tipico dei centri dati, che comporta l'elaborazione di milioni di byte di dati aziendali casuali, tra cui dati di collaborazione su disegni tecnici CAD e dati sismici destinati all'analisi (come Big Data, per esempio), o l'accesso ai dati di clienti sparsi in tutto il mondo, per l'esecuzione di transazioni bancarie (come i processi OLTP per esempio), i dispositivi di storage devono essere in grado di offrire un accesso caratterizzato da latenze minime e possono essere soggetti all'accesso simultaneo da parte di numerosi client, che richiedono gli stessi dati, senza alcun rallentamento delle prestazioni in termini di tempi di risposta.

Un'applicazione client comporta l'accesso da parte di un singolo utente o di una singola applicazione, con un'elevata forbice di tolleranza tra tempi di risposta minimi e massimi per qualunque azione intrapresa dall'utente o dal sistema.

Gli array di storage complessi che utilizzano dischi SSD (come le piattaforme di storage NAS, o SAN), sono inoltre influenzati negativamente dalla presenza di eventuali incongruenze prestazionali, le quali possono causare numerosi problemi alle latenze dell'array di storage, con un impatto negativo sulla continuità delle prestazioni e, di conseguenza, sulla qualità del servizio.

A differenza delle soluzioni SSD client, gli SSD per impieghi aziendali, come il drive a stato solido E100 di Kingston, non solo sono ottimizzati per garantire le massime prestazioni dopo pochi secondi dall'accesso, ma, utilizzando anche una maggiore area di over provisioning (OP), sono anche in grado di garantire una maggiore stabilità di funzionamento per periodi di tempo più lunghi. [1]

Ciò garantisce la massima costanza e stabilità prestazionale degli array di storage, in linea con le esigenze delle aziende in termini di qualità del servizio in caso di elevati picchi di traffico.

Affidabilità

Le memorie NAND Flash sono caratterizzate da svariate problematiche associate all'affidabilità, le cui due principali sono una durata del ciclo di vita limitata e una tendenza naturale alla generazione di errori.

Durante il processo di produzione delle memorie NAND Flash, ogni matrice di memoria NAND Flash viene testata e caratterizzata da un tasso di errore dei bit (detto anche BER o RBER).

Il BER definisce la frequenza di generazione naturale degli errori in una data memoria NAND Flash, quando non viene utilizzata la funzione Error Correction Code (ECC); tali errori vengono corretti dall'FSP in tempo reale attraverso funzionalità ECC avanzate, senza causare alcuna interruzione dei processi dell'utente né bloccare l'accesso al sistema.

La capacità dei processori di storage Flash di correggere questi errori dei bit può essere valutata attraverso un parametro denominato "tasso di errore dei bit non correggibile" (UBER), ovvero "un sistema di misurazione del tasso di corruzione dei dati pari al numero degli errori dati rilevati in rapporto ai bit letti, dopo aver applicato uno qualsiasi dei metodi di correzione degli errori specificati". [2]

Come definito e standardizzato dal Comitato JEDEC nel 2010, attraverso i documenti JESD218A:Solid State Drive (SSD) Requirements and Endurance Test Method (Metodi di test di durata e dei requisiti dei dischi a stato solido) e JESD219:Solid State Drive (SSD) Endurance Workloads (Resistenza ai carichi di lavoro dei dischi a stato solido), i dispositivi SSD destinati ad impieghi aziendali sono caratterizzati da numerose differenze rispetto agli SSD destinati ai dispositivi client, tra cui, ma non solo, la capacità di sostenere carichi di lavoro in scrittura più elevati, operare in condizioni ambientali più estreme ed eseguire il ripristino dei dati anche in caso di valori BER più elevati rispetto a quelli degli SSD destinati a dispositivi client. [3] [4]

Application Class Workload (see JESD219) Active Use (power on) Retention Use (power off) Functional Failure Requirement (FFR) Uber Requirement
Client Client 40° C
8 hrs/day
30° C
1 year
≤3% ≤10 -15th
Enterprise Enterprise 55° C 24hrs/day 40° C
3 monts
≤3% ≤10 -16

Tabella 1 - JESD218A:Solid State Drive (SSD) Requirements and Endurance Test Method (Metodi di test di durata e dei requisiti dei dischi a stato solido) Copyright JEDEC. Riprodotto con il consenso di JEDEC.

Utilizzando i valori UBER raccomandati dal JEDEC, per una comparazione tra SSD aziendali e SSD client, le stime indicano che i primi manifestano 1 errore di bit non recuperabile con una frequenza pari a 1 bit di errore ogni 10 quadrilioni di bit (~1,11 PB), a differenza dei secondi che invece manifestano 1 errore di bit per ogni quadrilione di bit (~0,11 PB) elaborati.

Sui dischi SSD per impieghi aziendali è inoltre possibile utilizzare sistemi di protezione aggiuntivi, tra cui la tecnologia "Redundant Array of Independent Silicon Elements" (R.A.I.S.E. ™) di LSI® SandForce®, che può essere implementata sugli SSD per impieghi aziendali attraverso l'uso della parità suddivisa (striped parity) sulla matrice della NAND Flash, per compensare quelle circostanze in cui la funzione ECC dell'FSP non è in grado di recuperare un errori dei bit.

La tecnologia R.A.I.S.E. ™ è effettivamente in grado di ridurre il tasso dell'UBER fino a 1 errore dei bit per ogni 100 ottilioni di bit (10-29), oppure ~111022302462515,66 PB elaborati, con valori UBER che possono essere fino a 1 quadrilione di volte inferiori a quelli di un disco SSD di tipo standard. [5]

Per supportare la tecnologia R.A.I.S.E. ™ sul disco SSD Kingston E100, sono state implementate anche funzionalità di creazione periodica dei checkpoint e uno schema di protezione interna end-to-end basato sulla tecnologia di controllo della ridondanza ciclica (CRC), al fine di garantire l'integrità del flusso dati in transito dal dispositivo host fino alla memoria Flash e quindi nuovamente al dispositivo host.

In modo simile alla protezione ECC ottimizzata contro gli errori dei bit presente sui dischi SSD di classe aziendale, questi dischi normalmente sono anche dotati di funzionalità di controllo elettroniche per il rilevamento delle perdite di potenza - come il sistema di protezione contro le interruzioni di alimentazione preposto al monitoraggio dell'alimentazione in ingresso presente sul disco SSD E100 di Kingston - che offrono una fonte di alimentazione temporanea grazie a condensatori al tantalio, in caso di interruzione dell'alimentazione principale, al fine di consentire il completamento di qualunque operazione di scrittura interna o esterna in corso.

Durata

Tutte le memorie NAND Flash integrate nei dispositivi di storage flash subiscono un degrado in termini di affidabilità nel mantenimento dei bit di dati in memoria. Tale degrado si verifica a ogni ciclo di programmazione o cancellazione (ciclo P/E) eseguito da una memoria NAND Flash, fino a quando tale memoria non è più in grado di garantire l'affidabilità di memorizzazione dei dati. A questo punto, la memoria deve essere rimossa dal pool di storage utilizzabile dall'utente e l'indirizzo logico a essa assegnata viene riallocato su un nuovo indirizzo di memoria fisico dell'array di storage della memoria NAND Flash.

Dato che le celle di memoria sono costantemente soggette a cicli di programmazione e cancellazione, anche il valore del BER tende a crescere in modo lineare; ed è per questo motivo che è necessario implementare una serie di complesse tecnologie di gestione sull'FSP del disco SSD, al fine di gestire in modo ottimale la capacità delle celle di memoria di conservare i dati durante l'intero ciclo di vita stimato del disco SSD. [6]

La resistenza ai cicli di P/E di una determinata memoria NAND Flash può variare notevolmente, in base al tipo di processo di produzione litografico corrente e al tipo di memoria NAND Flash prodotta.

Tipo di memoria NAND Flash TLC MLC e-MLC SLC
Architettura 3 bit per cella 2 bit per cella 2 bit per cella 1 bit per cella
Capacità Massima capacità Alta capacità Alta capacità Capacità minima
Durata (P/E) Durata minima Durata media Lunga durata Massima durata
Costo €€ €€€ €€€€
Tasso approssimativo di errori dei bit NAND (BER) 10^4 10^7 10^8 10^9

Tabella 2 - Tipologie di memorie NAND Flash [6] [7] [8] [9]

Le memorie NAND Flash di tipo e-MLS (Multi Level Cell) per impieghi aziendali utilizzate sui dischi SSD E100 di classe aziendale di Kingston funzionano in modo simile alle memorie NAND Flash MLC di fascia commerciale, ma prevedono requisiti superiori in termini di controlli e caratteristiche di qualificazione dei componenti, al fine di garantire una maggiore durata in termini di cicli P/E e valori BER inferiori, rispetto alle memorie MLC standard utilizzate sugli SSD destinati a dispositivi client.

Dato che un disco SSD di classe aziendale deve essere in grado di sostenere intensi processi di scrittura, negli scenari tipici dei server utilizzati nei centri dati, con un impiego costante 24/7, a differenza degli SSD client, che vengono tipicamente utilizzati per 8 ore al giorno durante la settimana, le memorie di tipo e-MLC costituiscono la scelta perfetta per gli SSD a cui vengono richieste alte prestazioni, elevata capacità e massima durata.

Comprendere i fattori che determinano la resistenza di un SSD ai cicli di scrittura può rappresentare un'operazione complessa. Ecco perché il comitato del JEDEC ha anche proposto un metodo di misurazione della durata che utilizza un parametro basato sui TeraByte scritti (TBW), che indica la quantità di dati grezzi che può essere scritta su un disco SSD prima che la memoria NAND Flash contenuta nel disco SSD diventi inaffidabile e richieda la sostituzione del disco.

Utilizzando le procedure proposte dai documenti JEDEC, JESD218A "Testing methods" (Metodi di test) e ESD219 "Enterprise class workloads" (Carichi di lavoro per dispositivi di classe aziendale), diventa semplice interpretare i calcoli di durata effettuati dai produttori di dischi SSD attraverso il parametro TBW, per poi estrapolare e convertire i dati di durata in una forma maggiormente comprensibile, applicabile a qualunque centro dati.

Come indicato nei documenti JESD218 e JESD219, gli impieghi di carichi di lavoro relativi a classi di applicazioni differenti possono anche essere influenzati da un fattore di amplificazione di scrittura (WAF), con un ordine di grandezza superiore a quello delle operazioni di scrittura effettive inviate dal dispositivo host, che possono facilmente causare fenomeni non gestibili di usura delle memorie NAND Flash, elevati valori BER delle memorie NAND Flash a causa degli eccessivi cicli di scrittura nel tempo, nonché un rallentamento delle prestazioni determinato dalla presenza di elevate quantità di pagine non valide distribuite sul disco SSD. Il meccanismo di compressione in tempo reale utilizzato dal disco SSD E100 di Kingston dotato di tecnologia LSI® SandForce® DuraWrite™ riduce il WAF complessivo, estendendo la durata nominale della memoria NAND Flash con le applicazioni tipiche degli ambienti aziendali.

Sebbene il TBW sia un argomento importante in termini di comparazione tra gli SSD di classe aziendale e quelli destinati al segmento client, esso rappresenta unicamente un modello predittivo che indica il livello di durata di una determinata memoria NAND Flash, mentre il tempo medio fra i guasti (MBTF) può essere considerato come un modello predittivo indicante il livello di affidabilità e durata dei componenti basato sull'affidabilità dei componenti utilizzati dal dispositivo. Le aspettative relative ai componenti utilizzati sui dischi SSD di classe aziendale sono concentrate su elevata durata e alta resistenza nella gestione delle tensioni che attraversano la memoria NAND Flash, piuttosto che sulla durata del ciclo di vita stimata dei dischi SSD.

Le funzioni di monitoraggio e reporting S.M.A.R.T integrate nei dischi SSD di classe aziendale consentono, con la massima semplicità, di analizzare il dispositivo per valutare la presenza di sintomi che indichino un imminente malfunzionamento e di determinarne la durata stimata, sulla base del fattore di amplificazione in scrittura corrente e del livello di usura rilevato. Spesso questi dispositivi supportano anche le funzionalità di notifica predittiva relative ai malfunzionamenti che indicano guasti imminenti, come le perdite di potenza, gli errori dei bit presenti sull'interfaccia fisica o la presenza di una distribuzione dell'usura non uniforme.

Gli SSD di classe client offrono invece solamente le funzionalità S.M.A.R.T minime richieste per il monitoraggio dei drive durante il normale utilizzo, oppure dopo che il guasto si è verificato.

A seconda della classe dell'applicazione e della capacità dell'SSD è anche possibile allocare una maggiore quantità di memoria di riserva sulla memoria NAND Flash, da utilizzare come capacità di riserva avente funzioni di over provisioning (OP).

La capacità di over provisioning (OP) viene nascosta all'utente e all'accesso da parte del sistema operativo e può essere utilizzata come buffer di scrittura temporaneo per garantire performance elevate per tempi prolungati, nonché fungere da memoria sostitutiva per compensare eventuali celle di memoria Flash difettose, durante il ciclo di vita del disco SSD, al fine di ottimizzare l'affidabilità e la durata dello stesso.

Conclusioni

Esistono delle differenze distintive tra SSD per impieghi aziendali e SSD di classe client; tali differenze spaziano dalla durata in rapporto al numero di cicli di programmazione/cancellazione della memoria NAND Flash, fino alle complesse tecnologie di gestione utilizzate sulla base dei carichi di lavoro generati dalle differenti classi di applicazioni.

La comprensione di queste differenze tra le varie classi di applicazioni, a loro volta correlate a prestazioni, affidabilità e durata, può rappresentare uno strumento efficace al fine di minimizzare e gestire il rischio di interruzioni causate dai tempi di fermo negli impegnativi ambienti aziendali, spesso caratterizzati da applicazioni di tipo mission critical.