SSD empresarial e de consumidor

Um número crescente de datacenters empresariais, que necessitam de alta velocidade de dados e baixa latência nas transações e que anteriormente confiavam em Unidades de Disco Rígido (HDD) para seus servidores, agora estão enfrentando gargalos de desempenho e estão procurando Unidades de Estado Sólido (SSD) como uma solução de armazenamento viável para melhorar o desempenho, eficiência e confiabilidade dos seus datacenters, além de reduzir suas despesas operacionais (OpEx) de modo geral.

Para começar a entender as diferenças entre as classes de SSD, temos que distinguir os dois componentes chave de um SSD, a Controladora Flash de Armazenamento (chamada simplesmente de controladora SSD) e a memória flash NAND não volátil utilizada para armazenar dados.

No mercado atual, o consumo de SSD e memória Flash NAND está dividido em três grupos principais:
  • Dispositivos Comuns (Tablets, câmeras, telefones celulares)
  • Computadores (Netbook, notebook, Ultrabook, AIO, desktops), sistema embarcado/industriais (Quiosque de jogos, computadores personalizados para uma finalidade, sinalização digital)
  • Plataformas de computação empresarial (HPC ou computação de alto desempenho, servidores de datacenters).

Escolher o dispositivo de armazenamento SSD certo para datacenters pode ser um processo longo e complicado de conhecimento e qualificação de uma grande quantidade de SSDs de diferentes fornecedores e tipos de produto, já que nem todas as memórias flash NAND e SSDs são criadas da mesma maneira.

SSDs são fabricados para serem facilmente instalados como um substituto ou complemento para Unidades de Disco Rígido (HDD) e estão disponíveis em uma série de diferentes formatos, incluindo de 2,5 pol, protocolo de comunicação / interfaces, incluindo ATA Serial (SATA) e Serial Attached SCSI (SAS) e mais recentemente PCIe para transferir dados de/para a Unidade de Processamento Central (CPU) de um servidor.

Sua facilidade de instalação, entretanto, não garante que todos os SSDs serão adequados no longo prazo para as aplicações da empresa para onde foram selecionados. O custo de optar pelo SSD errado frequentemente pode anular qualquer economia inicial e possíveis benefícios de desempenho obtidos quando os SSDs se desgastarem prematuramente. Tudo isso devido a gravações excessivas ou atingirem um desempenho de gravação constante muito mais baixo em relação a seu tempo de vida útil esperado ou por introduzirem uma latência adicional no conjunto de armazenamento e com isso haver necessidade de substituição precoce.

Neste documento iremos discutir as três principais qualidades que distinguem um SSD de classe empresarial de um SSD para consumidor para ajudar na tomada de decisão correta quando chegar o momento de substituir ou acrescentar mais armazenamento a um datacenter empresarial.

Desempenho

Os SSDs podem oferecer desempenhos incrivelmente altos de leitura e gravação para solicitações de dados da CPU tanto sequenciais quanto aleatórias, através do uso de arquitetura multicanal e acesso paralelo da Controladora do SSD aos chips flash NAND.

Em um cenário típico de datacenters, envolvendo o processamento de milhões de bytes de dados randômicos da empresa, incluindo a colaboração em desenhos técnicos CAD, dados sísmicos para análise (por exemplo, Big Data) ou acessar dados de clientes em grande escala para transações bancárias (por exemplo, OLTP), os dispositivos de armazenamento devem ser acessíveis com os menores valores de latência e podem envolver um grande número de clientes necessitando acessar o mesmo segmento de dado simultaneamente sem degradação do tempo de resposta. A experiência do usuário baseia-se em ter baixas latências, o que aumenta a produtividade.

Um aplicativo voltado para consumidores somente envolverá um único usuário ou acesso ao aplicativo admitindo-se uma diferença mais alta entre o mínimo e o máximo tempo de resposta (ou latência) para qualquer ação do usuário ou do sistema.

Conjuntos complexos de armazenamento usando SSDs (por exemplo, Network Attached Storage, Direct Attached Storage ou Storage Area Network) também são negativamente afetados por desempenho confuso e podem provocar redução na latência do conjunto de armazenamento, queda no desempenho contínuo e consequentemente, na qualidade do serviço observada pelos usuários.

Diferentemente dos SSDs voltados para consumidores, os SSDs de classe empresarial da Kingston são otimizados não somente para pico de desempenho nos primeiros segundos de acesso, mas também com o uso de uma área de provisionamento extra (OP) que oferece um desempenho constante maior por longos períodos. Mais informações sobre unidades específicas podem ser encontradas no site da Kingston em SSDs Empresariais.{{Footnote.N48213}}

Isso garante que o desempenho do conjunto de armazenamento permaneça consistente na qualidade de serviço (QoS) esperada pelas organizações durante os picos de tráfego das cargas.

Confiabilidade

A memória flash NAND possui uma série de problemas inerentes, sendo que os dois mais importantes incluem uma expectativa de vida finita, já que as células flash NAND se desgastam com gravações repetidas e uma taxa natural de erros.

Durante o processo de produção de flash NAND, cada recorte de wafer de silício flash NAND é testado e é atribuído uma taxa de erro de bit básica (BER ou RBER).

A BER define a taxa em que erros de bit ocorrendo naturalmente no flash NAND acontecem sem o benefício do Código de Correção de Erro (ECC) e que a Controladora SSD corrige usando ECC Avançado dinamicamente (normalmente chamado correção de erro BCH ECC, Strong ECC ou LDPC por diferentes fabricantes de controladora), sem interromper o acesso do usuário ou do sistema.

A capacidade das controladoras SSD para corrigir esses erros de bits pode ser lida pela Taxa de Erro de Bit Incorrigível (Uncorrectable Bit Error Ratio - UBER), "uma medida para a taxa de corrupção de dados igual ao número de erros de dados por bit, lidos após a aplicação de qualquer método específico de correção de erros". {{Footnote.N48213}}

Conforme definido e padronizado pela associação de padrões do setor, Comitê JEDEC, em 2010 através dos documentos JESD218A: Requisitos da Unidade de Estado Sólido (SSD) e Método de Teste de Resistência (Solid State Drive (SSD) Requirements e Endurance Test Method) e JESD219: Cargas de Resistência da Unidade de Estado Sólido (SSD) (Solid State Drive (SSD) Endurance Workloads), a classe empresarial difere de diversos modos dos SSDs voltados para consumidores, incluindo, mas não se limitando, à sua capacidade de suportar cargas de trabalho de gravação mais intensas, condições ambientais extremas mais rígidas e recuperação de uma BER mais alta do que um SSD consumidor.{{Footnote.N52081}}{{Footnote.N52082}}

Classe de aplicaçãoCarga de trabalho (ver JESD219)Uso ativo (ligado)Uso de retenção (desligado)Requisito UBER
Consumidor Consumidor 40° C
8 h/dia
30° C
1 ano
≤10 -15
Empresarial Empresarial 55° C
24h/dia
40° C
3 meses
≤10 -16

Tabela 1- JESD218A: Requisitos da Unidade de Estado Sólido (SSD) e Método de Teste de Resistência
Copyright JEDEC. Reproduzido com a autorização da JEDEC.

Utilizando o requisito UBER proposto pela JEDEC para SSD empresa versus consumidor, espera-se que um SSD de classe empresarial somente apresente 1 erro de bit irrecuperável em uma taxa de 1 erro de bit em 10 quatrilhões de bits (aprox. 1,11 Petabytes) comparada ao SSD consumidor com uma taxa de 1 erro de bit em 1 quatrilhão de bits (aprox. 0,11 Petabytes) processados.

Os SSDs empresariais Kingston também irão adicionar tecnologias extras que irão permitir a recuperação de blocos de dados corrompidos usando a paridade de dados armazenados em outros dies NAND (similarmente ao RAID das unidades, isso permite a recuperação de blocos específicos que podem ser reconstruídos com a paridade dos dados armazenados em outros blocos).

Para complementar as tecnologias de recuperação de blocos redundantes de dados incorporadas nos SSDs empresarias da Kingston, a criação de checkpoints periódicos, a verificação cíclica de redundância (CRC) e a correção de erro ECC também são implementadas em um esquema de proteção interna ponta a ponta para garantir a integridade dos dados do host até o flash e de volta ao host. Proteção de dados ponta a ponta significa que os dados que são recebidos do host são verificados quanto a sua integridade durante seu armazenamento no cache interno do SSD e quando são gravados ou lidos nas áreas de armazenamento NAND.

De forma similar à proteção ECC contra erros de bit dos SSDs de classe empresarial, os SSDs também podem conter um sistema elétrico físico para detecção da perda de energia que controla os capacitores de armazenamento de energia nos SSDs. Um equipamento de suporte à falha de energia monitora a entrada de energia para o SSD e durante uma perda de energia inesperada, fornece energia temporária ao sistema elétrico do SSD usando capacitores de tântalo para finalizar qualquer gravação remanescente antes dos SSDs serem desligados. Normalmente um sistema elétrico de proteção contra falha de energia é necessário para aplicações onde a perda de dados não é recuperável.

A proteção contra falha de energia também pode ser implementada no firmware SSD através de flush frequente de dados nas áreas de cache da controladora do SSD (por exemplo, na tabela FTranslation Layer) para o armazenamento NAND - isso não garante que nenhum dado será perdido durante um evento de falha de energia, mas tenta minimizar o impacto de desligamentos de energia inseguros. A proteção contra falha de energia no firmware também assegura que o SSD não se torne inoperante após ocorrer um desligamento inseguro.

Em muitas situações, o uso de Armazenamento Definido por Software (Software Defined Storage) ou cluster de servidor pode reduzir a necessidade de suporte contra falha de energia baseada em hardware, pois os dados são duplicados em um dispositivo de armazenamento separado e independente em um servidor ou servidores diferentes. Datacenters em escala Web frequentemente dispensam o suporte de falha de energia utilizando Armazenamento Definido por Software (Software Defined Storage) para que os servidores RAID, efetivamente, armazenem cópias duplicadas dos mesmos dados.

Resistência

Toda a memória flash NAND contida em dispositivos de armazenamento flash reduz sua capacidade de armazenar com segurança bits de dados em todos os ciclos programar ou apagar (P/E) das células de memória flash NAND até os blocos de flash NAND não puderem mais armazenar dados com segurança. Nesse momento deve ser removido o bloco defeituoso ou desgastado do pool de armazenamento acessível do usuário e o endereço lógico do bloco (ou LBA) é movido para um novo endereço físico no arranjo de armazenamento flash NAND. Um novo bloco de armazenamento substitui o bloco defeituoso utilizando o pool de blocos disponíveis, parte do provisionamento extra (Over Provisioning - OP) do SSD.

À medida que a célula é constantemente gravada ou apagada, o BER também cresce linearmente e é por essa razão que um conjunto complexo de técnicas de gerenciamento deve ser implementado na controladora do SSD empresarial para controlar a capacidade da célula de armazenar de maneira confiável os dados durante a vida útil esperada do SSD. {{Footnote.N52083}}

A resistência de P/E de uma determinada memória flash NAND pode variar substancialmente dependendo da litografia no processo de fabricação atual e do tipo de flash NAND produzido.

Tipo de memória flash NANDTLCMLCSLC
Arquitetura 3 bits por célula 2 bits por célula 1 bit por célula
Capacidade Altíssima capacidade Alta capacidade Baixíssima capacidade
Resistência (Gravar/Apagar) Baixíssima resistência Média resistência Altíssima resistência
Custo $ $$ $$$$
Taxa aprox de erro de bit NAND (BER) 10^4 10^7 10^9

Tabela 2 - Tipos de memória flash NAND {{Footnote.N52084}}{{Footnote.N52085}}

SSDs Empresariais também irão variar em relação a SSDs consumidor em seu ciclo de trabalho. Um SSD de classe empresarial deve ser capaz de resistir a intensas atividades de gravação ou leitura em cenários típicos com um datacenter requisitando acesso aos dados durante 24 horas todos os dias da semana, comparado a um SSD para consumidor que normalmente só é totalmente utilizado durante 8 horas por dia durante a semana. SSDs empresariais têm um ciclo de trabalho 24x7 comparados a SSDs consumidor com um ciclo de trabalho 20/80 (20% do tempo ativo, 80% no modo suspenso ou pausa durante o uso no computador).

Entendendo que a resistência de gravação de qualquer aplicativo ou SSD pode ser complexa, o comitê JEDEC também propôs uma unidade de medida de resistência utilizando o valor de Terabytes gravados (TeraBytes Written - TBW), para indicar o total de dados básicos que podem ser gravados no SSD antes que o flash NAND contido no SSD torne-se uma mídia de armazenamento não confiável e a unidade deva ser descartada.

Utilizando os métodos de teste JESD218A propostos pela JEDEC e cargas de trabalho empresarial JESD219, torna-se uma tarefa simples interpretar os cálculos de resistência dos fabricantes de SSDs através dos TBW e extrapolar uma medida de resistência mais compreensível que possa ser aplicada em qualquer datacenter.
Conforme observado nos documentos JESD218 e JESD219, cargas de trabalho de classes diferentes também podem sofrer de um fator de amplificação de gravação (WAF) em uma ordem de magnitude mais alta do que as gravações efetivas submetidas pelo host, levando facilmente a um desgaste no flash NAND incontrolável, BER do flash NAND mais alto de gravações excessivas ao longo do tempo e desempenho mais lento de páginas inválidas amplamente distribuídas em todo o SSD.

Embora o TBW seja um tópico importante para discussão entre SSDs classe empresarial e classe consumidor, TBW é somente um modelo de previsão de resistência em termos de flash NAND e o tempo médio entre falhas (MTBF) deve ser observado como um modelo de previsão de resistência e confiabilidade em termos de componente com base na confiabilidade dos componentes utilizados no dispositivo. A previsão para os componentes de um SSD classe empresarial inclui maior vida útil e trabalho mais intenso no controle de tensões em toda a memória flash NAND durante a expectativa de vida dos SSDs. Todos os SSDs empresariais deveriam ser classificados em no mínimo um milhão de horas MTBF, o que significa mais de 114 anos! A Kingston especifica seus SSDs de modo muito conservador e não é incomum ver-se especificações com MTBF mais altos em SSDs; é importante observar que 1 milhão de horas é um ponto inicial mais do que suficiente para SSDs empresariais.

O monitoramento e relatórios S.M.A.R.T. dos SSDs classe empresarial permitem que o dispositivo seja facilmente examinado antes da falha para a expectativa de vida com base no fator de amplificação de gravação atual (WAF) e nível de desgaste. Avisos de previsão de falhas para ocorrências como perda de energia, erros de bits ocorrendo na interface física ou distribuição irregular de desgaste frequentemente também são suportados. O Gerenciamento de SSD Kingston pode ser baixado no site da Kingston e utilizado para visualizar o status de uma unidade.

SSDs para consumidores podem apresentar somente um resultado S.M.A.R.T. mínimo para monitorar o SSD durante o uso regular ou pós-falha.

Dependendo da classe do aplicativo e capacidade do SSD, uma maior capacidade de reserva da memória flash NAND também pode ser alocada como um provisionamento extra (OP) de capacidade ociosa. A capacidade OP fica oculta do usuário e do acesso do sistema operacional e pode ser utilizada com um buffer de gravação temporário para um desempenho contínuo mais alto e como uma substituição para células de memória flash com defeito durante a expectativa de vida do SSD, para aprimorar a confiabilidade e resistência do SSD (com um número maior de Blocos ociosos).

Conclusão

Existem diferenças marcantes entre SSDs classe empresarial e classe consumidor variando da resistência Programar e Apagar de sua memória flash NAND até suas complexas técnicas de gerenciamento para adequação a cargas de trabalho de diferentes classes de aplicativo.

Entender essas diferenças em classes de aplicativos, relacionadas a desempenho, confiabilidade e resistência pode ser uma ferramenta eficaz para minimizar e controlar o risco de uma paralisação em um ambiente empresarial exigente e de missão critica. Para outras dúvidas, entre em contato com seu representante Kingston ou utilize os recursos de chat Pergunte a um Especialista ou Suporte Técnico em Kingston.com.

Artigos relacionados