
Treinar um modelo de machine learning pode consumir mais ciclos de CPU, memória e largura de banda de E/S do que qualquer outra tarefa de software. Um único modelo de última geração pode ler e escrever centenas de terabytes de dados ao longo de múltiplas épocas, ultrapassando os limites até mesmo das matrizes de armazenamento mais rápidos. Com o surgimento da corrida por IA, onde cada indústria e agência governamental compete para expandir os limites do desempenho de IA, a necessidade de uma forma confiável e reproduzível de avaliar recursos de hardware específicos para cargas de trabalho de ML tornou-se essencial. O grupo MLCommons foi pioneiro nesse esforço com o MLPerf Storage v2.0, introduzindo métodos inovadores para avaliar o desempenho do armazenamento no treinamento e inferência de machine learning. Este documento explora como os SSDs Kingston DC3000ME PCIe Gen5 NVMe U.2 performam sob a estrutura de benchmark do MLPerf sem exigir um hardware de GPU caro. Usando emulação de sleep, o MLPerf simula cargas de trabalho de IA do mundo real, permitindo que as empresas testem o desempenho do armazenamento de forma econômica e escalável.
Por que isso importa? O armazenamento rápido mantém as GPUs produtivas, fornecendo dados rapidamente, minimizando o tempo ocioso e maximizando a eficiência computacional. As unidades DC3000ME da Kingston ajudam as empresas a acelerar ciclos de treinamento, reduzir custos de infraestrutura e alcançar desempenho escalável com menos unidades, se tornando um investimento inteligente para implantações modernas de IA.
Neste documento, nós:
- Examinamos o novo método de teste de emulação de sleep do armazenamento MLPerf v2
- Apresentamos as diferentes cargas de trabalho de treinamento e checkpoint cobertas pelo armazenamento MLPerf v2
- Discutimos os resultados do envio do Kingston DC3000ME nas cargas de trabalho de treinamento e checkpoint em plataformas PCIe Gen5 e Gen4
Os resultados mostram que soluções NVMe PCIe Gen5 como a DC3000ME apresentam uma solução atraente para empresas que buscam alcançar a mais alta utilização de aceleradores e horas ativas de GPU em seus fluxos de trabalho de machine learning. Mergulhamos profundamente em parâmetros ajustáveis, metodologia de teste e ajustes post-mortem e seu impacto em diferentes cargas de trabalho.
Os SSDs Kingston DC3000ME PCIe Gen5 NVMe U.2 são uma solução de alto impacto para cargas de trabalho de IA. Seja treinando modelos de deep learning ou ajustando grandes modelos de linguagem, essas unidades oferecem a velocidade, confiabilidade e eficiência necessárias para se manter à frente na corrida da IA.
Baixe o documento