SSD empresarial e de consumidor

Um profissional de frente para uma parede e duas setas brancas para a esquerda e para a direita.

Um número crescente de data centers que exigem alta taxa de transferência de dados e baixa latência de transação anteriormente dependentes de discos rígidos (HDD) em seus servidores estão agora encontrando gargalos no desempenho. Eles estão procurando unidades de estado sólido (SSDs) como uma solução para aumentar o desempenho, a eficiência e a confiabilidade do seu data center, bem como reduzir as despesas operacionais gerais (OpEx).

Para entender as diferenças entre as classes de SSD, distinguimos os dois componentes chave de um SSD, o Controlador Flash de Armazenamento (chamado simplesmente de controlador SSD) e a memória flash NAND não volátil utilizada para armazenar dados.

No mercado atual, o consumo de SSD e memória Flash NAND está dividido em três grupos principais:
  • Dispositivos Comuns (Tablets, câmeras, telefones celulares)
  • Computadores (Netbook, notebook, Ultrabook, AIO, desktops), sistema embarcado/industriais (Quiosque de jogos, computadores personalizados para uma finalidade, sinalização digital)
  • Plataformas de computação empresarial (HPC ou servidores de data centers).

Escolher o dispositivo de armazenamento SSD certo para data centers pode ser um processo longo e complicado de conhecimento e qualificação de uma grande quantidade de SSDs de diferentes fornecedores e tipos de produto, já que nem todas as memórias flash NAND e SSDs são criadas da mesma maneira.

SSDs são fabricados para serem facilmente instalados como um substituto ou complemento para HDDs e estão disponíveis em diferentes formatos, incluindo de 2,5 pol, interfaces / protocolo de comunicação incluindo Serial ATA (SATA) e Serial Attached SCSI (SAS) e mais recentemente NVMe PCIe para transferir dados de e para a Unidade de Processamento Central (CPU) de um servidor.

Sua facilidade de instalação, entretanto, não garante que todos os SSDs serão adequados no longo prazo para as aplicações da empresa para onde foram selecionados. O custo de optar pelo SSD errado frequentemente pode anular qualquer economia inicial e possíveis benefícios de desempenho obtidos quando os SSDs se desgastarem prematuramente. Tudo isso devido a gravações excessivas ou atingirem um desempenho de gravação constante muito mais baixo em relação a seu tempo de vida útil esperado ou por introduzirem uma latência adicional no conjunto de armazenamento e com isso haver necessidade de substituição precoce.

Neste documento iremos discutir as três principais qualidades que distinguem um SSD de classe empresarial de um SSD para consumidor para ajudar na tomada de decisão correta quando chegar o momento de substituir ou acrescentar armazenamento a um servidor.

Desempenho

Os SSDs podem oferecer desempenhos incrivelmente altos de leitura e gravação para solicitações de dados da CPU tanto sequenciais quanto aleatórias, através de arquitetura multicanal e acesso paralelo do controle do SSD aos chips flash NAND.

Em um cenário típico de data centers, envolvendo o processamento de milhões de bytes de dados randômicos da empresa, incluindo a colaboração em desenhos técnicos CAD, dados sísmicos para análise (por exemplo, Big Data) ou acessando dados de clientes em escala mundial para transações bancárias (por exemplo, OLTP), os dispositivos de armazenamento devem ser acessíveis com os menores valores de latência, o que pode envolver muitos clientes necessitando acessar o mesmo segmento de dado simultaneamente sem degradação do tempo de resposta. A experiência do usuário baseia-se em ter baixas latências, o que aumenta a produtividade do usuário. Multiplique isso entre toda a sua força de trabalho e você verá como os benefícios da baixa latência podem agregar rapidamente.

Um aplicativo voltado para consumidores somente envolverá um único usuário ou acesso ao aplicativo admitindo-se uma diferença mais alta entre o mínimo e o máximo tempo de resposta (ou latência) para qualquer ação do usuário ou do sistema.

Conjuntos complexos de armazenamento usando SSDs (por exemplo, Network Attached Storage, Direct Attached Storage ou Storage Area Network) também são negativamente afetados por desempenho confuso e podem provocar redução na latência do conjunto de armazenamento, queda no desempenho contínuo e consequentemente, na qualidade do serviço observada pelos usuários.

Diferentemente dos SSDs para consumidor, os SSDs de classe empresarial são otimizados não somente para um pico de desempenho nos primeiros segundos de acesso, mas também usando uma área provisionamento extra maior (OP), e também oferecer um desempenho constante maior por longos períodos de tempo. Mais informações sobre drives específicos podem ser encontrados no site da Kingston em SSDs Empresariais.1

Isso garante que o desempenho do conjunto de armazenamento permaneça consistente na qualidade de serviço (QoS) esperada pelas organizações durante os picos de tráfego das cargas.

Um console LED montado em rack em uma sala de servidores.

Confiabilidade

A memória Flash NAND tem vários problemas inerentes associados a ela. Os dois mais importantes incluem uma expectativa de vida finita, já que as células flash NAND se desgastam com gravações repetidas e uma taxa natural de erros.

Durante o processo de produção de flash NAND, cada recorte de wafer de silício flash NAND é testado e é atribuído uma taxa de erro de bit básica (BER ou RBER).

A BER define a taxa em que erros de bit ocorrendo naturalmente no flash NAND acontecem sem o benefício do Código de Correção de Erro (ECC) e que a Controladora SSD corrige usando ECC Avançado dinamicamente (normalmente chamado correção de erro BCH ECC, Strong ECC ou LDPC por diferentes fabricantes de controladora), sem interromper o acesso do usuário ou do sistema.

A capacidade das controladoras SSD para corrigir esses erros de bits pode ser lida pela Taxa de Erro de Bit Incorrigível (Uncorrectable Bit Error Ratio - UBER), "uma medida para a taxa de corrupção de dados igual ao número de erros de dados por bit, lidos após a aplicação de qualquer método específico de correção de erros". 1

Conforme definido e padronizado pela associação de padrões do setor, Comitê JEDEC, em 2010 através dos documentos JESD218A: Requisitos da Unidade de Estado Sólido (SSD) e Método de Teste de Resistência (Solid State Drive (SSD) Requirements e Endurance Test Method) e JESD219: Cargas de Resistência da Unidade de Estado Sólido (SSD) (Solid State Drive (SSD) Endurance Workloads), a classe empresarial difere de diversos modos dos SSDs voltados para consumidores, incluindo, mas não se limitando, à sua capacidade de suportar cargas de trabalho de gravação mais intensas, condições ambientais extremas mais rígidas e recuperação de uma BER mais alta do que um SSD consumidor.23

Classe de aplicaçãoCarga de trabalho (ver JESD219)Uso ativo (ligado)Uso de retenção (desligado)Requisito UBER
Consumidor Consumidor 40° C
8 h/dia
30° C
1 ano
≤10 -15
Empresarial Empresarial 55° C
24h/dia
40° C
3 meses
≤10 -16

Tabela 1- JESD218A: Requisitos da Unidade de Estado Sólido (SSD) e Método de Teste de Resistência
Copyright JEDEC. Reproduzido com a autorização da JEDEC.

Utilizando o requisito UBER proposto pela JEDEC para SSD empresarial versus consumidor, espera-se que um SSD de classe empresarial somente apresente 1 erro de bit irrecuperável em uma taxa de 1 erro de bit em 10 quatrilhões de bits (aprox. 1,11 Petabytes) comparada ao SSD consumidor com uma taxa de 1 erro de bit em 1 quatrilhão de bits (aprox. 0,11 Petabytes) processados.

Os SSDs empresariais Kingston também irão adicionar tecnologias extras que irão permitir a recuperação de blocos de dados corrompidos usando a paridade de dados armazenados em outras matrizes NAND (como RAID nos drives, isso permite a recuperação de blocos específicos que podem ser reconstruídos com a paridade dos dados armazenados em outros blocos).

Para complementar as tecnologias de recuperação de blocos redundantes de dados incorporadas nos SSDs empresarias da Kingston, a criação de checkpoints periódicos, a verificação cíclica de redundância (CRC) e a correção de erro ECC também são implementadas em um esquema de proteção interna ponta a ponta para garantir a integridade dos dados do host até o flash e de volta ao host. Proteção de dados ponta a ponta significa que os dados recebidos do host são verificados quanto a sua integridade durante seu armazenamento no cache interno do SSD e quando são gravados ou lidos nas áreas de armazenamento NAND.

Como os SSDs de classe empresarial que melhoram a proteção de ECC contra erros de bits, os SSDs também podem conter circuitos físicos para detecção de perda de energia que gerenciam capacitores de armazenamento de energia nos SSDs. Um equipamento de suporte à falha de energia monitora a entrada de energia para o SSD, e durante uma perda de energia inesperada, fornece energia temporária ao circuito do SSD usando capacitores para finalizar qualquer gravação remanescente antes dos SSDs serem desligados. Normalmente um circuito de proteção contra perda de energia (PLP) é necessário para aplicações onde a perda de dados não é recuperável.

A proteção contra perda de energia também pode ser implementada no firmware SSD através de flush frequente de dados nas áreas de cache do controlador do SSD (por ex., sua tabela Flash Translation Layer) para o armazenamento NAND - isso não garante que nenhum dado será perdido durante um evento de perda de energia, mas tenta minimizar o impacto de desligamentos de energia inseguros. A proteção contra perda de energia no firmware também assegura que o SSD não se torne inoperante após ocorrer um desligamento inseguro.

Em muitas situações, o uso de Armazenamento Definido por Software (Software Defined Storage) ou cluster de servidor pode reduzir a necessidade de suporte contra falha de energia baseada em hardware, pois os dados são duplicados em um dispositivo de armazenamento separado e independente em um servidor ou servidores diferentes. Data centers em escala web frequentemente dispensam o suporte de falha de energia utilizando Armazenamento Definido por Software (Software Defined Storage) para que os servidores RAID armazenem cópias duplicadas dos mesmos dados.

Resistência

Um profissional coloca um hexágono sobre uma imagem de hexágonos encaixados, cada um com um símbolo indicando tecnologias como computação em nuvem.

Toda a memória flash NAND contida em dispositivos de armazenamento flash reduz sua capacidade de armazenar com segurança bits de dados em todos os ciclos programar ou apagar (P/E) das células de memória flash NAND até os blocos de flash NAND não puderem mais armazenar dados com segurança. Nesse momento deve ser removido o bloco defeituoso ou desgastado do pool de armazenamento acessível do usuário e o endereço lógico do bloco (ou LBA) é movido para um novo endereço físico no arranjo de armazenamento flash NAND. Um novo bloco de armazenamento substitui o bloco defeituoso utilizando o pool de blocos disponíveis, parte do provisionamento extra (Over Provisioning - OP) do SSD.

À medida que a célula é constantemente gravada ou apagada, o BER também cresce linearmente , e é por essa razão que um conjunto complexo de técnicas de gerenciamento deve ser implementado no Controlador do SSD empresarial para gerenciar a capacidade da célula para um armazenamento confiável dos dados durante a vida útil esperada do SSD.4

A resistência de P/E de uma determinada memória flash NAND pode variar substancialmente dependendo da litografia no processo de fabricação atual e do tipo de flash NAND produzido.

Tipo de memória flash NANDQLCTLCMLCSLC
Arquitetura 4 bits por célula 3 bits por célula 2 bits por célula 1 bit por célula
Capacidade Altíssima capacidade Maior capacidade Alta capacidade Baixíssima capacidade
Resistência (Gravar/Apagar) Baixíssima resistência Menor resistência Média resistência Altíssima resistência
Custo $ $$ $$$ $$$$
Taxa aprox de erro de bit NAND (BER) 10^4 10^4 10^7 10^9

Tabela 2 - Tipos de memória flash NAND 56

Os SSDs empresariais também variam dos SSDs para cosumidor em seu ciclo de trabalho. Um SSD de classe empresarial deve ser capaz de suportar a atividade pesada de gravação ou leitura em cenários típicos com um servidor de data center precisando de acesso durante todas as 24 horas de todos os dias da semana. Compare isso com um SSD para consumidor que normalmente só é completamente utilizado 8 horas por dia dentro de uma semana.

SSDs empresariais têm um ciclo de trabalho 24x7 comparados a SSDs consumidor com um ciclo de trabalho 20/80 (20% do tempo ativo, 80% no modo suspenso ou pausa durante o uso no computador).

Entendendo que a resistência de gravação de qualquer aplicativo ou SSD pode ser complexa, o comitê JEDEC também propôs uma unidade de medida de resistência utilizando o valor de Terabytes gravados (TeraBytes Written - TBW), para indicar o total de dados básicos que podem ser gravados no SSD antes que o flash NAND contido no SSD torne-se uma mídia de armazenamento não confiável e a unidade deva ser descartada.

Utilizando os métodos de teste JESD218A propostos pela JEDEC e cargas de trabalho empresarial JESD219, torna-se uma tarefa simples interpretar os cálculos de resistência dos fabricantes de SSDs através dos TBW e extrapolar uma medida de resistência mais compreensível que possa ser aplicada em qualquer data center.

Como observado nos documentos JESD218 e JESD219, diferentes cargas de trabalho de classe de aplicação também podem sofrer um Fator de Amplificação de Gravação (WAF) uma ordem de magnitude maior do que as gravações atuais enviadas pelo host. Isso pode facilmente levar a um desgaste incontrolável do flash NAND, maior BER do flash NAND de gravações excessivas ao longo do tempo e desempenho mais lento de páginas inválidas amplamente distribuídas através do SSD.

Embora o TBW seja um tópico importante para a discussão entre SSDs de classe empresarial e para consumidor, o TBW é apenas um modelo de previsão de resistência de nível de flash NAND. O tempo médio entre falhas (MTBF) deve ser observado como um modelo de previsão de resistência e confiabilidade em nível de componente baseado na confiabilidade dos componentes utilizados no dispositivo. A previsão para os componentes de um SSD classe empresarial inclui maior vida útil e trabalho mais intenso no controle de tensões em toda a memória flash NAND durante a expectativa de vida dos SSDs. Todos os SSDs empresariais devem ser classificados em um MTBF de no mínimo dois milhões de horas , o que significa mais de 230 anos! A Kingston especifica seus SSDs de modo muito conservador e não é incomum ver-se especificações com MTBF mais altos em SSDs; é importante observar que 2 milhão de horas é um ponto inicial mais do que suficiente para SSDs empresariais.

O monitoramento e relatórios S.M.A.R.T. nos SSDs classe empresarial permitem que o dispositivo seja facilmente examinado antes da falha para a expectativa de vida com base no fator de amplificação de gravação atual (WAF) e nível de desgaste. Avisos de previsão de falhas para ocorrências como perda de energia, erros de bits ocorrendo na interface física ou distribuição irregular de desgaste frequentemente também são suportados. O utilitário Kingston SSD Manager pode ser baixado do site da Kingston e usado para ver o status de um drive.

SSDs para consumidores podem apresentar somente um resultado S.M.A.R.T. mínimo para monitorar o SSD durante o uso regular ou pós-falha.

Dependendo da classe do aplicativo e capacidade do SSD, uma maior capacidade de reserva da memória flash NAND também pode ser alocada como uma capacidade excedente do excesso de provisionamento (OP). A capacidade de OP está oculta do acesso do usuário e sistema operacional. Ela pode ser utilizada com um buffer de gravação temporário para um desempenho contínuo mais alto e como uma substituição para células de memória flash com defeito durante a expectativa de vida do SSD, para aprimorar a confiabilidade e resistência do SSD (com um número maior de blocos excedentes).

Conclusão

Existem diferenças marcantes entre SSDs classe empresarial e para consumidor, variando da resistência Programar e Apagar de sua memória flash NAND até suas complexas técnicas de gerenciamento para adequação a cargas de trabalho de diferentes classes de aplicativo.

Entender essas diferenças em classes de aplicações pode ser uma ferramenta eficaz para minimizar e controlar o risco de uma paralisação no ambiente empresarial exigente e de missão critica

Se você tiver mais perguntas ou quiser saber mais sobre SSDs empresariais da Kingston, entre em contato com seu representante da Kingston, nossa equipe Pergunte a um Especialista ou nosso chat para suporte técnico.

Vídeos relacionados

Artigos relacionados