Sprachen Businessbereich Bezugsquellen
Speicher
SSD-Laufwerke
USB-Sticks
Flashspeicher
Wireless
Support
SPEICHERSUCHE

Technische Kurzanleitung

Was ist R.A.I.S.E.?

Abb. 1 – Ablaufdiagramm SF-2500 Flash-Storage-Prozessor [1]

R.A.I.S.E.™ (Redundant Array of Independent Silicon Elements™) ist eine Komplementärtechnologie zur Ergänzung der ECC-Funktionen (Error Correcting Code) von Flash-Storage-Prozessoren (FSP), die in der LSI® SandForce® DuraClass™ Technologie verwendet werden.

Aufgrund seiner Beschaffenheit treten bei NAND Flash während der Verarbeitung immer wieder Bitfehler (BE) auf. Diese Bitfehler werden zwischen dem Funktionsbeginn (BOL- Beginning of Life) und Funktionsende (EOL - End of Life) des NAND Flash von der eingebetteten Komponente Error Correcting Code (ECC) erkannt und korrigiert.

Abb. 2 – Beispiel eines außergewöhnlichen NAND BER (Bit-Fehlerrate)-Anstiegs

Die Bit-Fehlerrate (BER) wird vom Hersteller im Rahmen der Produktion festgelegt und hängt stark vom Herstellungsprozess und dem Typ des hergestellten NAND ab.

Die BER steht umgekehrt proportional zu den im NAND noch verfügbaren Programm- und Löschzyklen. Der NAND Flash wird gegen das zeitliche Ende (EOL) des NAND häufiger beschrieben bzw. gelöscht und dementsprechend erhöht sich die Bit-Fehlerrate proportional.

Wie aus Abb. 2 ersichtlich, erhöht sich die nicht korrigierte Bit-Rohfehlerrate (RBER) exponentiell im Lauf der Lebensdauer des NAND Flashs, in der es programmiert (beschrieben) oder die Daten darauf gelöscht werden. Letztendlich führt dies zu einem Status, in dem er gemäß den vom Hersteller festgelegten P/E-Zyklen nicht mehr verwendet werden kann.

Im selten Fall eines Bitfehlers in einem Datenteil ist die ECC-Komponente die erste Verteidigungslinie.

Die ECC-Komplexität kann je nach der Länge der wiederhergestellten Bits (z.B. 1 Bit, 2 Bits… 55 Bits je 512 Bytes), und dem verwendeten Code (z. B. BCH, Reed Solomon) unterschiedlich sein, und unterstützt die Behebung von Flashfehlern und Rücksendung gültiger Daten an den Hostcomputer.

Die Stärke einer ECC-Komponente wird als UBER (Uncorrectable Bit Error Rate) angegeben, das heißt, in der Rate, in der nicht-korrigierbare Einzelfehler auch noch nach Anwendung von ECC auftreten.

Abb. 3 – UBER-Verhältnis zwischen LSI SandForce FSP und Standard SSD Controller [2]

Abb. 3 zeigt den typischen UBER eines 1-Bit Fehlers in jeweils 1 Billiarde verarbeitete Bits (~0.11 Petabytes), der in einem Standard-SSD-Controller (Flash-Storage-Prozessor) aufgetreten ist. Im Vergleich zum SandForce SSD Prozessor (FSP) werden die Benutzerdaten bereits in einem frühen Stadium der Lebensdauer dem erhöhten Risiko nicht-korrigierbarer Bitfehler und Silent-Fehler ausgesetzt. [2] [3]

Nachdem der BER die ECC-Möglichkeiten eines Flash-Storage-Prozessors ausgeschöpft hat, insbesondere gegen Ende der NAND Flash Lebensdauer, erhöht sich die Wahrscheinlichkeit nicht-korrigierbarer Fehler, die zu Datenkorruption führen können.

In diesem Fall kommt die zweite Schutzmaßnahme zum Tragen; ein kleiner Teil NAND Flash, der von der SSD-Laufwerkskapazität für R.A.I.S.E (Redundant Array of Independent Silicon Elements) reserviert wurde.

Abb. 4 – Eine einzelne korrupte Seite wurde aus redundanten Informationen in einem neuen, unbeschädigten Block neu aufgebaut [2] [4]

R.A.I.S.E. besteht aus redundanten Informationen, die auf mehreren Seiten im NAND Flash der SSD gespeichert ist. Aus diesen Informationen werden, wie in Abb. 4 zu sehen, Daten auf Seiten- oder Blockebene in einem unbeschädigten NAND Flashblock transparent wieder aufgebaut.

Diese Technologie gewährleistet den Schutz und die Zuverlässigkeit von RAID 5 (Redundant Array Of Independent Disks) auf einem SSD-Laufwerk ohne doppelten Schreib-Overhead für die Parität und mit einem nahezu einer Billiarde niedrigeren UBER (Uncorrectable Bit Error Rate) als bei einem Standard SSD-Flash-Storage-Prozessor ohne R.A.I.S.E.™ Dies entspricht 1 Bitfehler je 100 Quadrilliarden Bits (10^-29) oder ~111022302462515.66 Petabytes verarbeiteter Daten.

Die Wiederherstellung sowohl auf Seiten- als auch auf Blockebene (Einzelbit je Streifen) ist ein nahtloser Wiederherstellungsprozess nach einem Fehler, der innerhalb von 50 – 100ms erfolgt und vom Anwender nicht einmal bemerkt werden kann.

Mit jeder neuen Generation von Lithografieverkleinerungen, erhöht sich die Komplexität der Handhabung kleinerer NAND Flash-Geometrien und reduziert sich die Programmier-/Lösch-Lebensdauer. Demzufolge empfehlen NAND Flashhersteller R.A.I.S.E. als Schutz zur Erhaltung und Verbesserung der NAND Flashzuverlässigkeit.

Abb. 5 – NAND Datenschutz mit den Schutzebenen ECC, R.A.I.S.E. und CRC-32

Wenn ein nicht-korrigierbarer Bit-Fehler durch den ECC nicht entdeckt wurde, kann ein stummer Fehler entstehen und ungültige Daten können an den Hostcomputer zurückgeschickt werden, wodurch die Datenintegrität beeinträchtigt werden kann.

Da die FSP-ECC-Komponente keinen Fehler entdeckt hat, kann R.A.I.S.E. nicht unterstützen und die Daten werden mit dem End-to-End 32 Bit CRC Check kontrolliert, um ungültige Daten abzufangen, bevor sie als gültige Daten in den Hostcomputer zurückübertragen werden und die Datenintegrität beeinträchtigen können.

Bei unternehmenskritischen Anwendungen, wie beispielsweise im Aktienhandel, kann die Einschleusung eines Bit mit korrumpierten Daten in den Hostcomputer verheerende Auswirkungen auf die ganze Wirtschaft haben, wenn der Fehler nicht unmittelbar erkannt wird.

Zusammenfassung

Die Komplexität des NAND Flash-Managements erhöht sich exponentiell im Laufe der Lebensdauer.

Der Umgang mit der zunehmenden BER (Bit Error Rate) erfordert innovative Lösungen wie das LSI SandForce R.A.I.S.E. Nur so können für den NAND Flash ein über den ECC hinausgehender Schutz der Daten bei den Programmier- und Löschvorgängen während der gesamten Lebensdauer garantiert werden.

Die Verwendung eines niedrigeren Standards als R.A.I.S.E. zur Ergänzung eines bereits komplexen Systems zur Fehlerkorrektur (ECC) und der LSI SandForce DuraClass Flash Technologie würden während des SSD-Lebenszyklus die Integrität nicht nur von Benutzerdaten, sondern sogar der gesamten SSD in den Client- und Enterprise-Klassen sowie in der industriellen Anwendung riskieren.

Referenzen: