Porównanie korporacyjnych i klienckich dysków SSD

W coraz większej liczbie korporacyjnych centrów danych, w których wymagana jest wysoka przepustowość przesyłania danych oraz małe opóźnienia wykonywania transakcji, bazujących dotychczas na tradycyjnych dyskach twardych (HDD) występują wąskie gardła wydajności. W związku z tym ich operatorzy rozważają użycie dysków półprzewodnikowych (SSD) jako pamięci masowej w celu zwiększenia wydajności, efektywności i niezawodności centrów danych oraz zmniejszenia ogólnych kosztów utrzymania (OpEx).

Na początku rozważań na temat różnic między klasami dysków SSD należy rozróżnić dwa kluczowe komponenty dysku SSD, czyli kontroler pamięci masowej flash (zwany w uproszczeniu „kontrolerem dysku SSD”) oraz nieulotną pamięć flash NAND służącą do przechowywania danych.

Obecnie dyski SSD i pamięci flash NAND są używane w trzech głównych grupach produktów:
  • urządzeniach konsumenckich (tabletach, aparatach fotograficznych, telefonach komórkowych);
  • urządzeniach klienckich (netbookach notebookach, ultrabookach, AIO, osobistych komputerach stacjonarnych) i rozwiązaniach osadzonych/przemysłowych (kioskach z grami, systemach specjalizowanych, cyfrowych systemach informacyjnych);
  • urządzeniach korporacyjnych (środowiskach HPC, serwerach w centrach danych).

Wybór urządzenia pamięci masowej SSD odpowiedniego dla korporacyjnego centrum danych może być długim i skomplikowanym procesem obejmującym poznanie specyfikacji i dokonanie kwalifikacji produktów różnych typów pochodzących od różnych producentów. Jest to spowodowane tym, że nie wszystkie dyski SSD i pamięci flash NAND są sobie równe.

Dyski SSD są produkowane w taki sposób, aby można je było z łatwością wdrażać jako zamienniki lub uzupełnienie dysków twardych (HDD) wyposażonych w obrotowe talerze magnetyczne. Są one dostępne w obudowach o różnych rozmiarach, w tym 2,5 cala, i obsługują różne protokoły komunikacyjne/interfejsy, w tym Serial ATA (SATA) i Serial Attached SCSI (SAS) oraz nowszy PCIe, umożliwiające przesyłanie danych do i z procesorów serwera.

Jednak łatwość wdrożenia nie stanowi gwarancji, że wszystkie dyski SSD będą nadawać się do długotrwałej eksploatacji w zastosowaniach korporacyjnych. Koszty wyboru nieodpowiednich dysków SSD często mogą przekroczyć początkowe oszczędności i zniwelować korzyści wynikające ze wzrostu wydajności, ponieważ takie dyski mogą zużywać się przedwcześnie z powodu dużej liczby operacji zapisu, oferować znacznie niższą od oczekiwanej ciągłą wydajność zapisywania danych w okresie eksploatacji albo wprowadzać dodatkowe opóźnienia do działania macierzy, co z kolei powoduje szybką konieczność ich wymiany.

Poniżej zostaną omówione trzy główne cechy odróżniające od siebie korporacyjne i klienckie dyski SSD. Te informacje pomogą podjąć odpowiednie decyzje dotyczące zakupu, gdy nadejdzie czas wymiany lub rozbudowy pamięci masowej korporacyjnego centrum danych.

Wydajność

Dyski SSD mogą oferować niesamowicie wysoką wydajność zapisu i odczytu, zarówno sekwencyjnego, jak i losowego, dzięki wykorzystaniu wielokanałowej architektury i równoległego dostępu kontrolera dysku SSD do układów pamięci flash NAND.

W typowych scenariuszach działania centrum danych, które obejmują przetwarzanie milionów bajtów losowo wybieranych danych, w tym pracę grupową nad technicznymi rysunkami CAD, analizowanie wielkich bloków danych (np. Big Data) lub uzyskiwanie dostępu do danych klientów na całym świecie w celu obsługi transakcji bankowych (np. OLTP), urządzenia pamięci masowej muszą być dostępne z jak najmniejszym opóźnieniem i muszą obsługiwać dużą liczbę klientów wymagających jednoczesnego dostępu do tych samych danych, bez wydłużenia czasów odpowiedzi. Doświadczenia użytkowników są uzależnione od niskich opóźnień pozwalających podwyższyć produktywność.

Zastosowanie klienckie będzie obejmować dostęp jednego użytkownika lub aplikacji, przez co akceptowalne stają się większe różnice między minimalnym a maksymalnych czasem reakcji (czyli opóźnieniem) na dowolną akcję użytkownika lub systemu.

Negatywny wpływ na złożone macierze pamięci masowej, w których są używane dyski SSD (np. Network Attached Storage, Direct Attached Storage lub Storage Area Network), ma także niedopasowanie dysków pod względem wydajności, co może spowodować lawinowy wzrost opóźnień w macierzy pamięci masowej, spadek stałej wydajności, a w konsekwencji spadek ogólnej jakości usługi w ocenie użytkowników.

W przeciwieństwie do klienckich dysków SSD, oferowane przez firmę Kingston dyski SSD klasy korporacyjnej są zoptymalizowane nie tylko pod kątem szczytowej wydajności w ciągu kilku pierwszych sekund dostępu do danych, ale dzięki wykorzystaniu większego obszaru dodatkowych bloków pamięci (OP) oferują także wyższą stałą wydajność w dłuższych okresach. Więcej informacji na temat konkretnych dysków można znaleźć na witrynie firmy Kingston w sekcji poświęconej korporacyjnym dyskom SSD.{{Footnote.N48213}}

Stanowi to gwarancję, że wydajność macierzy pamięci masowej będzie zgodna z oczekiwaniami organizacji w zakresie jakości usługi w okresach szczytowego obciążenia.

Niezawodność

Z pamięcią flash NAND wiąże się kilka nieodłącznych problemów, z których dwa najważniejsze to skończony oczekiwany czas eksploatacji (powodowany powtarzanymi operacjami zapisu w komórkach pamięci flash NAND) oraz współczynnik naturalnie występujących błędów.

W trakcie procesu produkcji pamięci flash NAND każdy segment pamięci flash NAND wycinany z płytki krzemowej jest testowany i opisywany za pomocą współczynnika błędów bitów (BER lub RBER).

Współczynnik BER określa, ile naturalnie występujących błędów bitów w pamięci flash NAND może wystąpić przed wygenerowaniem kodu korekcji błędu (Error Correction Code, ECC) i które kontroler dysku SSD koryguje na bieżąco z użyciem zaawansowanej funkcji korekcji ECC (inni producenci używają różnych nazw, np. BCH ECC, Strong ECC lub LDPC) bez przerywania dostępu użytkownika lub systemu.

Możliwości kontrolera dysku SSD w zakresie korekcji tych błędów bitów można określić za pomocą współczynnika niekorygowalnych błędów bitów (Uncorrectable Bit Error Ratio, UBER), który jest „miarą współczynnika uszkodzenia danych równą liczbie błędów danych na odczyt bitu po zastosowaniu określonej metody korekcji błędów”. {{Footnote.N48213}}

Zgodnie z definicją i standardem określonym przez branżowe stowarzyszenie standaryzacyjne JEDEC w 2010 roku w dokumentach JESD218A:Solid State Drive (SSD) Requirements and Endurance Test Method (JESD218A:Wymagania dotyczące dysków półprzewodnikowych [SSD] oraz metoda testowania trwałości) i JESD219:Solid State Drive (SSD) Endurance Workloads (JESD219:Obciążenia do testowania trwałości dysków półprzewodnikowych [SSD]), dyski SSD klasy korporacyjnej różnią się od klienckich dysków SSD pod wieloma względami, w tym m.in. obsługują większe obciążenia operacjami zapisu, wytrzymują trudniejsze warunki środowiskowe i umożliwiają odzyskiwanie danych przy wyższych współczynnikach BER.{{Footnote.N52081}}{{Footnote.N52082}}

Klasa zastosowaniaObciążenie (patrz JESD219)Aktywne użycie (włączone zasilanie)Podtrzymywanie (włączone zasilanie)Wymaganie UBER
Typowa Typowa 40° C
8 godz./dzień
30° C
1 rok
≤10 -15
Korporacyjna Korporacyjna 55° C
24 godz./dzień
40° C
3 miesiące
≤10 -16

Tabela 1 – JESD218A: Wymagania dotyczące dysków półprzewodnikowych (SSD) oraz metoda testowania trwałości
Copyright JEDEC. Reprodukcja za zgodą organizacji JEDEC.

Zgodnie z zaproponowanym przez organizację JEDEC wymaganiem dotyczącym współczynnika UBER dla korporacyjnych i klienckich dysków SSD, na dysku SSD klasy korporacyjnej może wystąpić tylko 1 nieodzyskiwalny błąd bitu przy 1 błędzie bitu na każde 10 kwadrylionów przetworzonych bitów (~1,11 petabajtów), a na klienckim dysku SSD przy 1 błędzie bitu na każdy 1 kwadrylion przetworzonych bitów (~0,11 petabajtów).

Ponadto dyski SSD klasy korporacyjnej produkowane przez firmę Kingston są wyposażone w dodatkowe rozwiązania techniczne umożliwiające odzyskiwanie uszkodzonych bloków danych z wykorzystaniem danych parzystości przechowywanych w innych segmentach pamięci NAND (podobnie jak w dyskach w macierzy RAID można dzięki temu odzyskać określone bloki, których odbudowa jest możliwa na podstawie danych parzystości przechowywanych w innych blokach).

W celu uzupełnienia dodatkowych technologii odzyskiwania bloków danych stosowanych w dyskach SSD klasy korporacyjnej firmy Kingston zaimplementowano także funkcje okresowego tworzenia punktów kontrolnych, cyklicznej kontroli nadmiarowości (CRC) oraz korekcji błędów ECC, które razem tworzą wewnętrzny kompleksowy zespół zabezpieczeń, gwarantujący integralność danych przesyłanych z hosta do pamięci flash i z powrotem do hosta. Kompleksowa ochrona danych oznacza, że integralność danych otrzymywanych z hosta jest sprawdzana podczas ich przechowywania w pamięci podręcznej dysku SSD oraz gdy są one zapisywane w lub odczytywane z pamięci NAND.

Dyski SSD klasy korporacyjnej mogą także zawierać, oprócz zaawansowanej ochrony przed błędami bitów za pomocą technologii ECC, fizyczne układy wykrywające przypadki utraty zasilania i zarządzające kondensatorami zasilającymi w dyskach SSD. Sprzętowe zabezpieczenie na wypadek utraty zasilania monitoruje zasilanie dysku SSD i w przypadku nagłej przerwy w zasilaniu udostępnia niewielką ilość energii zgromadzonej w kondensatorach tantalowych, która wystarcza do zakończenia wszystkich oczekujących operacji zapisu przed całkowitym wyłączeniem dysku SSD. Układy zapobiegające utracie danych wskutek utraty zasilania są zwykle wymagane w zastosowaniach, w których utraconych danych nie można odzyskać w inny sposób.

Ochronę tego typu można też zintegrować z oprogramowaniem sprzętowym dysku SSD. Jest ona realizowana poprzez częste opróżnianie danych w pamięci podręcznej kontrolera dysku SSD (np. jego tablicy FTranslation Layer) i przenoszenie ich do pamięci NAND – takie rozwiązanie nie zapewnia pełnej ochrony danych w wypadku utraty zasilania, jednak konsekwencje takich niebezpiecznych sytuacji są minimalizowane. Wbudowana w oprogramowanie sprzętowe ochrona na wypadek utraty zasilania ogranicza też prawdopodobieństwo uszkodzenia dysku SSD w wyniku wyłączenia awaryjnego.

W wielu sytuacjach zastosowanie rozwiązania Software Defined Storage lub klastrowania serwerów może ograniczyć potrzebę stosowania sprzętowych zabezpieczeń na wypadek utraty zasilania, ponieważ wszystkie dane są powielane na oddzielnych i niezależnych urządzeniach magazynujących w innym serwerze lub serwerach. Internetowe centra danych często rezygnują z ochrony przed skutkami utraty danych i wykorzystują rozwiązania Software Defined Storage, aby przechowywać redundantne kopie tych samych danych w macierzach serwerowych.

Wytrzymałość

Możliwość niezawodnego przechowywania bitów danych w pamięci flash NAND, która jest używana w urządzeniach pamięci masowej flash, maleje z każdym cyklem programowania/kasowania (P/E) komórki pamięci flash NAND, aż do momentu, gdy bloki pamięci flash NAND nie są już w stanie niezawodnie przechowywać danych. Wtedy należy taki uszkodzony blok usunąć z puli pamięci dostępnej dla użytkownika, a jego adres logiczny (LBA) przypisać do nowego adresu fizycznego w macierzy pamięci masowej flash NAND. Nowy blok pamięci przejmujący funkcje niesprawnego bloku pochodzi z puli zapasowych bloków dostępnych na dysku SSD.

Ciągłe programowanie i kasowanie komórki powoduje liniowy wzrost wartości współczynnika BER, przez co w kontrolerach dysków SSD klasy korporacyjnej wymagana jest implementacja złożonego zestawu technik zarządzania, które służą do sterowania funkcjami komórek pamięci związanymi z niezawodnym przechowywaniem danych przez cały oczekiwany okres eksploatacji dysku SSD. {{Footnote.N52083}}

Trwałość w zakresie programowania/kasowania danej pamięci flash NAND może znacząco się różnić, w zależności od procesu wytwarzania litograficznego oraz typu produkowanej pamięci flash NAND.

Typ pamięci flash NANDTLCMLCSLC
Architektura 3 bity na komórkę 2 bity na komórkę 1 bit na komórkę
Pojemność Największa pojemność Duża pojemność Najmniejsza pojemność
Trwałość (programowanie/kasowanie) Najniższa trwałość Średnia trwałość Najwyższa trwałość
Koszt $ $$ $$$$
Przybliżony współczynników błędów bitów pamięci NAND (BER) 10^4 10^7 10^9

Tabela 2. Typy pamięci flash NAND {{Footnote.N52084}}{{Footnote.N52085}}

Dyski SSD klasy korporacyjnej różnią się także od klienckich dysków SSD jeśli chodzi o ich cykl pracy. Dyski SSD klasy korporacyjnej muszą być w stanie obsługiwać bardzo duże obciążenie operacjami odczytu i zapisu w scenariuszach typowych dla serwerów w centrach danych, a więc obsługi żądań dostępu do danych przez 24 godziny na dobę i 7 dni w tygodniu, gdy klienckie dyski SSD zazwyczaj są w pełni wykorzystywane tylko przez 8 godzin w ciągu dnia. Cykl pracy przewidziany dla dysków SSD klasy korporacyjnej to 24x7, natomiast dla dysków klienckich przewiduje się cykl pracy 20/80, czyli aktywność przez 20% czasu użytkowania komputera i 80% czasu w stanie bezczynności lub trybie uśpienia.

Zagadnienie trwałości w zakresie zapisu dla dowolnego rozwiązania lub dysku SSD jest złożone, więc organizacja JEDEC Committee zaproponowała także wprowadzenie miary trwałości w postaci wartości Liczba zapisanych Terabajtów (TeraBytes Written, TBW), która wskazuje, ile danych można zapisać na dysku SSD, zanim znajdująca się w nim pamięć flash NAND przestanie być niezawodna i trzeba będzie wymienić dysk.

Używając zaproponowanych przez organizację JEDEC metod testowania (dokument JESD218A) oraz obciążeń korporacyjnych (dokument JESD219), można łatwiej zinterpretować obliczenia dotyczące trwałości przedstawiane przez producentów dysków SSD. W tym celu należy użyć wartości TBW i ekstrapolować tę łatwiejszą do zrozumienia miarę na dowolne centrum danych.

Według informacji podanych w dokumentach JESD218 i JESD219 negatywny wpływ na aplikacje różnych klas może też mieć współczynnik zwiększenia natężenia zapisu (Write Amplification Factor, WAF), gdy faktyczna liczba operacji zapisu jest większa niż liczba operacji zapisu żądanych przez hosta, co prowadzi do coraz większego zużycia pamięci flash NAND, wyższego współczynnika BER pamięci flash NAND związanego z większą niż przewidywana liczbą operacji zapisu wykonywanych z biegiem czasu oraz niższej wydajności powodowanej przez rozłożenie na dysku SSD coraz większej liczby nieprawidłowych stron.

Współczynnik TBW stanowi ważny element odróżniający korporacyjne dyski SSD od klienckich dysków SSD, jednak stanowi wyłącznie model przewidywania poziomu trwałości pamięci flash NAND, a wartość średniego czasu międzyawaryjnego (Mean Time Between Failure, MTBF) należy traktować jako model przewidywania trwałości i niezawodności dotyczący komponentów zastosowanych w danym urządzeniu. Od komponentów dysków SSD klasy korporacyjnej należy oczekiwać trwałości i lepszego zarządzania napięciami w całej pamięci flash NAND przez cały okres planowanej eksploatacji dysku. Wskaźnik MTBF dowolnego dysku SSD klasy korporacyjnej powinien wynosić co najmniej milion godzin, czyli ponad 114 lat! Firma Kingston ostrożnie ocenia parametry techniczne swoich dysków SSD. Inni producencie podają często wyższe wartości MTBF, jednak należy pamiętać, że milion godzin to więcej niż wystarczająca wartość dla dysków SSD klasy korporacyjnej.

Technologia monitorowania i raportowania S.M.A.R.T. stosowana w dyskach SSD klasy korporacyjnej umożliwia łatwiejsze przewidywanie awarii urządzenia i prognozowanie czasu eksploatacji na podstawie aktualnego współczynnika zwiększenia natężenia zapisu (WAF) i poziomu zużycia. Często są także obsługiwane ostrzeżenia zgłaszane przed wystąpieniem awarii, takiej jak utrata zasilania, błędy bitów występujące w interfejsie fizycznym lub nierównomierne zużycie pamięci. Program narzędziowy Kingston SSD Manager można pobrać ze strony internetowej firmy Kingston i poznać stan posiadanego dysku SSD.

Klienckie dyski SSD mogą oferować tylko minimalne możliwości technologii S.M.A.R.T. służące do monitorowania dysku SSD w trakcie typowego użytkowania lub po wystąpieniu awarii.

W zależności od klasy i pojemności dysku SSD może być przydzielana większa rezerwowa pojemność pamięci flash NAND, która będzie pełnić funkcję zapasowych bloków pamięci (OP). Pojemność zapasowych bloków pamięci jest niewidoczna dla użytkownika i systemu operacyjnego i może być używana jako tymczasowy bufor umożliwiający utrzymanie wyższej ciągłej wydajności albo jako zamiennik uszkodzonych komórek pamięci flash w celu zwiększenia niezawodności i trwałości dysku SSD (przy użyciu większej liczby zapasowych bloków).

Podsumowanie

Istnieją znaczące różnice między korporacyjnymi i klienckimi dyskami SSD dotyczące m.in. trwałości pamięci flash NAND w zakresie cykli programowania/kasowania oraz implementacji złożonych technik zarządzania dostosowanych do różnych obciążeń.

Znajomość różnic między dyskami z różnych klas w zakresie wydajności, niezawodności i trwałości może znacznie pomóc w minimalizowaniu ryzyka występowania przestojów w wymagających, a często też mających znaczenie krytyczne, środowiskach korporacyjnych oraz zarządzania tym ryzykiem. Dalsze pytania można kierować do przedstawicieli firmy Kingston lub zadać je z użyciem usługi Zapytaj eksperta lub czatu z pracownikiem działu pomocy technicznej dostępnych na stronie Kingston.com.