SSD Entreprise et Client

Un nombre croissant de datacenters ayant besoin de débits élevés et de latences faibles pour leurs transferts et transactions, et qui jusqu'ici utilisaient des serveurs avec des disques durs standards, commencent à rencontrer des problèmes de performance liés à des goulets d'étranglement. Ils se tournent vers des solutions SSD (Solid State Disks ou disques à semi-conducteurs) pour améliorer la performance, l'efficacité et la fiabilité de leurs opérations, et réduire leurs coûts d'exploitation.

Pour commencer à comprendre les différences entre les types de SSD, il est nécessaire de distinguer deux de leurs principaux composants : le contrôleur de stockage Flash (ou contrôleur SSD) et des mémoires Flash NAND non-volatiles qui contiennent les données.

Sur le marché actuel, les SSD et Flash NAND se répartissent en trois groupes principaux :
  • Appareils grand public (tablettes, appareils-photos, téléphones mobiles),
  • Systèmes client (Netbook, notebook, Ultrabook, AIO, ordinateurs de bureau), solutions intégrées/industrielles (kiosques de jeu, systèmes spécialisées, signalisation numérique)
  • Plateformes d'informatique d'entreprise (informatique à hautes performances (IHP), datacenters).

La sélection de la solution de stockage SSD la mieux adaptée aux besoins d'un datacenter peut être un processus d'apprentissage long et difficile, avec un processus de qualification couvrant une multitude de fournisseurs et de types de produit, puisque toutes les solutions SSD et Flash NAND ne sont pas égales.

Les SSD sont fabriqués pour être faciles à déployer, comme remplacements ou compléments des disques durs standards. Ils sont disponibles dans différents formats, comme le 2,5”, avec des interfaces et des protocoles de communication variés, incluant Serial ATA (SATA) et Serial Attached SCSI (SAS) et plus récemment PCIe, pour transférer des données de et vers l'unité centrale (CPU) d'un serveur.

La facilité de déploiement ne garantit pas que tous les SSD répondront toujours à long terme aux besoins de l'application pour laquelle ils ont été sélectionnés. Les conséquences de la sélection d'un type de SSD inadapté peuvent annuler toutes les réductions de coûts et les avantages offerts en termes de performance. Si les spécifications SSD ne sont pas adaptées à l'application, un SSD exposé à des volumes d'écriture excessifs peut s'user prématurément, et offrir des niveaux de performance en écriture continue largement inférieurs pendant son cycle de vie. Il peut aussi induire une augmentation des latences du système de stockage, et nécessiter un remplacement prématuré.

Nous examinons les trois qualités principales qui différencient les SSD destinés aux clients et aux entreprises pour vous aider à prendre des décisions d'achat lorsque vous aurez besoin de remplacer ou d'élargir le stockage d'un datacenter.

Performance

Grâce à leur architecture multicanal et leur accès parallèles entre le contrôleur SSD et les puces NAND Flash, les SSD peuvent fournir des taux de lecture et d'écriture extrêmement élevés, pour toutes les requêtes de données séquentielles et aléatoires de l'unité centrale.

Dans un scénario typique de centres de données traitant des millions d'octets de données aléatoires, incluant les collaborations sur des dessins CAO, des données d'analyses sismiques (type "Big Data"), ou l'accès à des données clients mondiales pour transactions bancaires (OLTP), les unités de stockage doivent être accessibles avec le plus bas niveau possible de latence. Elles doivent permettre à un très grand nombre de clients d'accéder simultanément aux mêmes données sans dégradation du temps de réponse. L'expérience utilisateur dépend du niveau des latences. Plus elles sont basses plus elles améliorent la productivité de l'utilisateur.

Une application client nécessite seulement un accès par application ou par utilisateur avec une valeur delta tolérable élevée entre les temps de réponse minimal et maximal (ou les latences), pour toute action du système ou d'un utilisateur.

En outre, les systèmes de stockage complexes intégrant des SSD (ex. Network Attached Storage, Direct Attached Storage ou Storage Area Network) sont sensibles aux incohérences de la performance. Par conséquent, ils peuvent avoir un impact désastreux sur les latences des stockages, la continuité de la performance et au final sur la qualité de service, telle que perçue par les utilisateurs.

Contrairement aux SSD destinés aux clients, les SSD pour entreprises de Kingston sont non seulement optimisés pour maintenir une performance de pointe pendant les premières secondes de chaque accès, mais offrent aussi un plus haut niveau de performance continue pendant des périodes plus longues, grâce à un espace d'"over-provisioning" (OP) plus important. D'autres informations sur des disques spécifiques sont disponibles dans la section Enterprise SSDs{{Footnote.N48213}} du site internet de Kingston.

Ceci garantit que la performance des systèmes de stockage reste alignée sur les exigences de la Qualité de service (QoS) attendue dans l'organisation pendant les périodes de trafic intensif.

Fiabilité

Les mémoires Flash NAND présentent diverses limitations. Les deux plus importantes incluent une durée de vie limitée, puisque les cellules Flash NAND s'usent sous l'effet des écritures répétées, et un taux d'erreur naturellement récurrent.

Pendant la fabrication des composants Flash NAND, chaque matrice Flash NAND découpée dans les tranches de silicium est testée et classée en fonction de son taux d'erreur binaire (TEB ou Bit Error Rate, BER/ RBER).

Le TEB exprime le nombre d'erreurs apparues dans des conditions normales dans un élément Flash NAND, sans code de correction des erreurs (Error Correction Code, ECC). De manière transparente pour les accès système ou utilisateur, ces erreurs sont normalement corrigées à la volée par le contrôleur SSD grâce à un code ECC avancé (appelé BCH ECC, Strong ECC ou Code de correction LDPC par les différents fabricants de contrôleurs SSD).

La capacité du contrôleur SSD à corriger ces erreurs binaires peut être évaluée par le taux d'erreur binaire non corrigé (TEBN ou Uncorrectable Bit Error Ratio – UBER). « Ce taux de corruption des données est égal au nombre d'erreurs par bit détectées après application d'une méthode de correction d'erreur spécifiée ». {{Footnote.N48213}}

Conformément aux définitions et à la normalisation proposée par l'association des normes industrielles JEDEC en 2010 dans les documents « JESD218A: Solid State Drive (SSD) Requirements and Endurance Test Method » et « JESD219: Solid State Drive (SSD) Endurance Workloads », la classe Entreprise se différencie de plusieurs façons des SSDClient. Ces différences incluent en particulier, parmi d'autres, sa capacité à supporter des charges d'écriture plus lourdes, des conditions environnementales plus extrêmes et une meilleure récupération en cas de TEB plus élevé, que les SSDClient. {{Footnote.N52081}}{{Footnote.N52082}}

Classe d'applicationCharge de travail (voir JESD219)Utilisation active (sous tension)Utilisation de conservation (hors tension)Critères du taux d'erreur binaire non corrigé (TEBN)
Client Client 40° C
8 heures/ jour
30° C
1 an
≤10 -15
Enterprise Enterprise 55° C
24 heures/ jour
40° C
3 mois
≤10 -16

Tableau 1 - JESD218A : Méthodes de test de l'endurance et des exigences pour SSD
Copyright JEDEC. Reproduction autorisée par le JEDEC.

En fonction du taux TEBN proposé par le JEDEC pour différencier les SSDEntreprise et les SSD Client, un SSD Entreprise ne doit pas générer plus d'une erreur binaire non-corrigée pour 10 quadrillions de bits (~1,11 Péta-octet), alors qu'un SSD Client serait limité à une EBN par quadrillion de bits (~0,11 Péta-octet) traités.

Les SSDKingston pour les entreprises apporte aussi des technologies supplémentaires qui permettent de récupérer les blocs corrompus à l'aide des données de parité stockées dans d'autres composants NAND (d'une manière similaire aux volumes RAID qui autorisent la récupération de blocs spécifiques en les reconstruisant avec les données de parité d'autres blocs).

Pour compléter les technologies de récupération des blocs de données intégrées aux SSD Kingston, la création périodique de points de contrôle, un programme de contrôle de redondance cyclique CRC (Cyclic Redundancy Check) et la correction d'erreur ECC font partie de la structure de protection interne bout en bout qui garantit l'intégrité des données reçues et envoyées au système hôte. La protection bout en bout des données signifie que l'intégrité des données provenant du système hôte est vérifiée pendant leur stockage dans le cadre interne du SSD et lorsqu'elles sont écrites ou relues dans les composants Flash NAND.

À l'instar de la protection ECC avancée contre les erreurs de bit des SSD Entreprise, les SSD peuvent aussi contenir des circuits physiques de détection de perte de courant qui gèrent les condensateurs d'alimentation du stockage. La détection de perte de courant du matériel analyse l'alimentation du SSD et en cas de coupure imprévue, les circuits du SSD sont temporairement alimentés par des condensateurs au tantale afin d'assurer la bonne exécution des écritures inachevées d'origine interne ou externe avant d'autoriser la mise hors tension du SSD. Les circuits de protection contre les pertes de courant sont habituellement obligatoires pour les applications qui ne permettent pas de récupérer les données perdues.

La protection contre les pertes de courant (Power Fail) peut aussi être mise en œuvre au niveau du firmware du SSD en transférant fréquemment les données contenues dans les zones de cache du contrôleur SSD (ex. sa table de la couche FTranslation) vers la zone de stockage NAND. Cette procédure ne garantit pas qu'aucune donnée ne sera perdue pendant une coupure de courant, mais elle minimise l'impact des fermetures non planifiées du dispositif. La protection du firmware contre les coupures de courant garantit que le SSD restera opérationnel après des fermetures non planifiées.

Dans de nombreuses situations, l'utilisation d'un stockage défini par logiciel, ou de grappes de serveurs, peut réduire la nécessité d'une protection contre les coupures de courant, puisque toutes les données sont répliquées sur des dispositifs de stockage séparés et indépendants, avec un ou plusieurs serveurs. Les centres de données du web se dispensent souvent de protection contre les coupures de courant parce qu'ils utilisent des systèmes de stockage défini par logiciel sur des serveurs RAID qui contiennent plusieurs copies de secours des mêmes données.

Endurance

Toutes les mémoires Flash NAND intégrées à des dispositifs de stockage Flash se caractérisent par une diminution progressive de leur capacité à stocker des bits sans erreur à chaque cycle d’écriture ou d'effacement (E/E) dans une cellule Flash NAND, jusqu'à ce que les blocs Flash NAND ne soient plus capables de conserver des données sans erreur. Dans ce cas, les blocs erronés doivent être retirés du pool de stockage adressable par les utilisateurs, et les adresses logiques correspondantes seront attribuées à de nouvelles adresses physiques dans le système des unités de stockage Flash NAND. Chaque bloc erroné est remplacé par un nouveau bloc de stockage disponible dans le pool de blocs de rechange qui fait partie du stockage OverProvisioned (OP) du SSD.

Comme la cellule est constamment programmée ou effacée, le TEB subit une augmentation linéaire. Par conséquent, un ensemble complexe de techniques de gestion doivent être exécutées par le contrôleur du SSD Entreprise pour gérer la capacité de la cellule à stocker en toute fiabilité des données sans erreur pendant la durée de vie de l'unité.{{Footnote.N52083}}

L'endurance assurée par le cycle E/E d'une mémoire Flash NAND peut largement varier en fonction du processus de fabrication lithographique utilisé et du type de Flash NAND.

Type de mémoire Flash NANDTLCMLCSLC
Architecture 3 bits par cellule 2 bits par cellule 1 bit par cellule
Capacité La plus haute capacité Haute capacité La plus basse capacité
Endurance (cycle E/E) La plus basse endurance Endurance moyenne La plus haute endurance
Coût $ $$ $$$$
Taux d'erreur binaire NAND approx. (TEB) 10^4 10^7 10^9

Tableau 2 – Types de mémoire Flash NAND{{Footnote.N52084}}{{Footnote.N52085}}

Les cycles d'utilisation des SSD Entreprise sont différents de ceux des SSD Client. Un SSD de classe Client est normalement utilisé huit heures par jour pendant les jours ouvrables, mais un SSD de classe Entreprise doit supporter des activités d'écriture intensives dans des scénarios de serveur de datacenters, avec des accès aux données 24 heures sur 24, sept jours sur sept. Les SSDEntreprise ont donc un cycle d'utilisation de 24x7 contre 20/80 pour les SSD Client (20% d'activité et 80% en mode veille pendant l'utilisation de l'ordinateur).

Comprendre l'endurance d'écriture d'un SSD ou d'une application peut être complexe. C'est pourquoi le Comité JEDEC propose une unité de mesure de l'endurance basée sur la valeur des téra-octets écrits (TOE ou TBW –TeraBytes Written). Elle permet d'exprimer la quantité de données hôtes brutes qui peuvent être écrites sur le SSD, avant que la fiabilité de l'élément Flash NAND qu'il contient commence à se dégrader, signalant ainsi la nécessité de le remplacer.

Grâce aux méthodes de test JESD218A proposées par le JEDEC et aux charges de travail d'entreprise JESD219, les calculs d'endurance d'un fabricant de SSD basés sur les TBW sont plus faciles à interpréter et permettent d'extrapoler une mesure de l'endurance plus facile à comprendre et à appliquer dans différents centres de données.

Comme indiqué dans les documents JESD218 et JESD219, différentes charges de travail applicatives peuvent aussi subir les effets d'un facteur d'amplification des écritures (FAE ou Write Amplification Factor – WAF). Dans de telles situations, les quantités finales écrites peuvent être supérieures aux écritures réelles émises par le système hôte. Le niveau d'usure Flash NAND peut alors devenir ingérable, avec un TEB sur Flash NAND gonflé par des écritures excessives et cumulées, ainsi qu'une baisse des performances provoquée par des pages invalides largement distribuées sur le SSD.

Si le TEB est un critère de différenciation important entre les SSD de classes Entreprise et Client, ce taux est seulement un des modèles de prédiction de l'endurance Flash NAND. L'intervalle moyen avant panne (MTBF) doit aussi être utilisé comme modèle de prédiction de la fiabilité et de l'endurance d'une unité, et basé sur la fiabilité des composants qu'elle contient. Les attentes vis-à-vis des composants SSD de la classe Entreprise incluent une endurance et une intensité d'activité supérieures pour gérer les tensions de travail sur tous les éléments Flash NAND pendant toute la durée de vie prévue des disques SSD. Tous les SSD Entreprise devraient annoncer une valeur MTBF d'au moins un million d'heures, ce qui représente plus de 114 années ! Les spécifications conceptuelles des SSD Kingston sont très conservatrices. Il n'est pas rare de voir des valeurs MTBF plus hautes sur ses SSD. Il est important de noter qu'un million d'heures est une base largement suffisante pour des SSD destinés à des entreprises.

Les fonctions de surveillance et de reporting S.M.A.R.T. des SSDde classe Entreprise autorisent des contrôles avant panne et de durée de vie basés sur le niveau d'usure et le facteur d'amplification des écritures (WAF). Les disques offrent souvent des alertes avant panne associées à différents événements, tels que coupure de courant, erreurs binaires sur interface physique ou distribution irrégulière de l'usure. L'utilitaire Kingston SSD Manager peut être téléchargé sur le site internet de Kingston et utilisé pour afficher le statut des disques.

Des SSDClient peuvent seulement offrir des résultats minimum S.M.A.R.T. pour surveiller les activités pendant l'utilisation standard ou après une panne.

Selon la classe d'application et la capacité du SSD, une capacité de réserve accrue dans la mémoire Flash NAND peut aussi être désignée comme capacité supplémentaire libre ou Over-provisioning (OP). La capacité OP est invisible pour l'utilisateur et le système d'exploitation. Elle peut être utilisée comme tampon d'écriture pour améliorer la performance continue et pour remplacer des cellules Flash défectueuses pendant la durée de vie du disque, afin d'optimiser sa fiabilité et son endurance (avec un plus grand nombre de blocs de rechange).

Conclusion

Des différences spécifiques séparent les SSDdes classes Entreprise et Client, depuis leur niveau d'endurance basé sur le cycle d’écriture ou d'effacement de leur mémoire Flash NAND à leurs techniques de gestion complexes et leurs charges de travail par classe d'application.

La compréhension de ces différences dans chaque classe d'application au regard des niveaux de performance, de fiabilité et d'endurance permet de gérer et de minimiser efficacement les risques d'indisponibilité perturbatrice dans des environnements d'entreprise qui sont généralement exigeants et souvent critiques. Pour obtenir d'autres informations, veuillez vous adresser à votre représentant Kingston ou utiliser les fonctions Demandez à un expert ou Chat d'assistance technique sur Kingston.com.

Articles