SSD Doanh nghiệp so với Máy khách

Ngày càng có nhiều trung tâm dữ liệu của doanh nghiệp yêu cầu lưu lượng dữ liệu cao và độ trễ giao dịch thấp, trước đây phụ thuộc vào Ổ đĩa cứng (HDD) trong các máy chủ, hiện nay đang gặp phải những vấn đề về hiệu năng và đang tìm đến Ổ cứng thể rắn (SSD) như là một giải pháp lưu trữ hữu hiệu để tăng hiệu năng, hiệu suất, độ tin cậy của trung tâm dữ liệu và giảm bớt các chi phí vận hành tổng thể (OpEx).

Để có thể hiểu rõ sự khác nhau giữa các loại SSD, chúng ta phải phân biệt được hai thành phần chính của một ổ SSD – Bộ xử lý Lưu trữ Flash (gọi đơn giản là bộ điều khiển SSD) và bộ nhớ NAND Flash không biến đổi dùng để lưu trữ dữ liệu.

Trên thị trường ngày nay, đối tượng sử dụng SSD và bộ nhớ NAND Flash được chia thành ba nhóm chính:
  • Thiết bị tiêu dùng (máy tính bảng, camera, điện thoại di động),
  • Hệ thống máy khách (Netbook, máy tính xách tay, Ultrabook, AIO, máy tính cá nhân để bàn), hệ thống nhúng/công nghiệp (quầy game, hệ thống xây dựng có mục đích, bảng hiệu điện tử)
  • Nền tảng điện toán doanh nghiệp (HPC, máy chủ trung tâm dữ liệu).

Chọn được đúng thiết bị lưu trữ SSD cho các trung tâm dữ liệu của doanh nghiệp có thể là một quá trình khó khăn và lâu dài khi phải tìm hiểu và đánh giá rất nhiều nhà sản xuất SSD và các loại sản phẩm khác nhau, vì không phải tất cả SSD và bộ nhớ NAND Flash đều được chế tạo như nhau.

SSD được sản xuất để dễ dàng thay thế hoặc bổ sung cho Ổ đĩa cứng (HDD) dùng phiến đĩa từ quay và có nhiều kích cỡ khác nhau kể cả loại 2,5", nhiều giao thức/giao tiếp truyền dữ liệu như Serial ATA (SATA), Serial Attached SCSI (SAS) và gần đây là PCIe để truyền dữ liệu với Bộ Xử lý Trung tâm (CPU) trong máy chủ.

Việc triển khai tuy dễ dàng nhưng không đảm bảo rằng tất cả các SSD sẽ phù hợp cho các ứng dụng doanh nghiệp về lâu dài và việc chọn sai SSD có thể loại bỏ hết các lợi ích như tiết kiệm chi phí và hiệu năng đạt được khi các SSD bị hao mòn quá sớm do việc ghi quá nhiều, tốc độ ghi liên tục bị thấp hơn nhiều trong suốt chu kỳ hoạt động dự kiến hoặc phát sinh thêm độ trễ trong dãy lưu trữ và do đó phải thay thế sớm.

Chúng tôi sẽ thảo luận ba đặc trưng chính giúp phân biệt SSD cấp doanh nghiệp và cấp cá nhân nhằm giúp bạn đưa ra quyết định mua sắm đúng đắn khi cần thay thế hoặc bổ sung dung lượng lưu trữ cho trung tâm dữ liệu của doanh nghiệp.

Hiệu năng

SSD có thể mang đến hiệu năng đọc và ghi cao một cách kinh ngạc cho các yêu cầu dữ liệu cả tuần tự và ngẫu nhiên từ CPU thông qua việc sử dụng kiến trúc đa kênh và truy cập song song từ Bộ điều khiển của SSD đến chip NAND Flash.

Trong môi trường trung tâm dữ liệu điển hình bao gồm việc xử lý hàng triệu byte dữ liệu ngẫu nhiên của công ty như cộng tác trên các bản vẽ kỹ thuật CAD, phân tích dữ liệu địa chấn (vd: Big Data) hoặc truy cập dữ liệu khách hàng trên toàn thế giới để thực hiện các giao dịch ngân hàng (vd: OLTP), các thiết bị lưu trữ cần phải được truy cập với độ trễ thấp nhất và có thể liên quan đến một số lượng lớn các khách hàng cần truy cập đồng thời một dữ liệu mà không có sự giảm sút về thời gian đáp ứng. Trải nghiệm người dùng tốt dựa trên độ trễ thấp, nhờ đó nâng cao hiệu suất của người dùng.

Một ứng dụng máy khách sẽ chỉ gồm một người dùng đơn nhất hoặc truy cập ứng dụng với độ lệch (delta) cao hơn có thể chấp nhận được giữa thời gian đáp ứng (độ trễ) tối thiểu và tối đa đối với bất kỳ hoạt động nào của người dùng hay hệ thống.

Các dãy lưu trữ phức tạp sử dụng SSD (ví dụ: Network Attached Storage, Direct Attached Storage hoặc Storage Area Network) cũng sẽ chịu ảnh hưởng tiêu cực do hiệu năng không tương ứng mang lại và có thể gây tổn hại đến độ trễ dãy lưu trữ, hiệu năng liên tục và cuối cùng là chất lượng dịch vụ do người dùng cảm nhận.

Không giống các SSD cấp cá nhân, SSD cấp doanh nghiệp của Kingston được tối ưu hoá để không những mang đến hiệu năng tối đa trong vài giây truy cập đầu tiên mà còn để sử dụng một vùng lưu trữ dự phòng (OP) lớn hơn, chúng cũng cung cấp hiệu năng liên tục ở trạng thái ổn định cao hơn trong khoảng thời gian dài sử dụng. Có thể tìm thấy thêm thông tin về các ổ cụ thể trên trang web của Kingston dưới phần SSD Doanh nghiệp.{{Footnote.N48213}}

Điều này đảm bảo rằng hiệu năng của dãy lưu trữ tương xứng với Chất lượng Dịch vụ (QoS) mà các tổ chức mong đợi trong quá trình có tải lưu lượng đạt mức cực đại.

Tin cậy

Bộ nhớ NAND Flash có một số vấn đề cố hữu, trong đó hai vấn đề quan trọng nhất là giới hạn về tuổi thọ do các ô NAND Flash hao mòn đi trong quá trình ghi liên tục và tỷ lệ lỗi xảy ra một cách tự nhiên.

Trong quá trình sản xuất NAND Flash, mỗi đế bán dẫn NAND Flash cắt ra từ các tấm silic được thử nghiệm và biểu thị bằng tỉ lệ lỗi bit nguyên gốc (BER hoặc RBER).

BER là tỷ lệ lỗi bit xảy ra một cách tự nhiên trong NAND Flash mà không được hưởng lợi từ Mã sửa lỗi (ECC) và Bộ điều khiển SSD sửa lỗi bằng ECC Nâng cao khi thiết bị đang chạy (thường được các nhà sản xuất bộ điều khiển SSD khác nhau gọi là sửa lỗi BCH ECC, ECC Mạnh hoặc LDPC) mà không làm gián đoạn người dùng hoặc truy cập hệ thống.

Khả năng sửa những bit lỗi này của bộ điều khiển SSD có thể được diễn giải bằng Tỷ lệ bit lỗi không thể sửa được (UBER), "một đơn vị đo tỷ lệ hư hỏng dữ liệu tương đương với số lượng lỗi dữ liệu trên một bit được đọc sau khi áp dụng bất kỳ phương pháp sửa lỗi được chỉ định nào".{{Footnote.N48213}}

Theo định nghĩa và tiêu chuẩn của hiệp hội tiêu chuẩn công nghiệp JEDEC năm 2010 được ghi trong các văn bản JESD218A: Yêu cầu và Phương pháp Thử nghiệm Độ bền của Ổ cứng thể rắn (SSD) và JESD219: Tải công việc Độ bền của Ổ cứng thể rắn (SSD), ổ cấp doanh nghiệp có một số khác biệt so với ổ SSD cấp cá nhân bao gồm nhưng không giới hạn trong khả năng hỗ trợ các tải công việc ghi nặng hơn, điều kiện môi trường khắc nghiệt hơn và sự phục hồi từ một BER cao hơn so với một SSD cấp cá nhân.{{Footnote.N52081}}{{Footnote.N52082}}

Lớp ứng dụngKhối lượng công việc (xem JESD219)Sử dụng thường xuyên (bật)Sử dụng không thường xuyên (tắt)Yêu cầu về UBER
Khách Khách 40° C 8 giờ/ngày 30° C 1 năm ≤10 -15
Doanh nghiệp Doanh nghiệp 55° C 24 giờ/ngày 40° C 3 tháng ≤10 -16

Bảng 1 - JESD218A: Yêu cầu và Phương pháp Thử nghiệm Độ bền của Ổ cứng thể rắn (SSD)
JEDEC giữ bản quyền. Được sao chép lại với sự cho phép của JEDEC

Theo yêu cầu UBER cho ổ SSD cấp doanh nghiệp so với cấp cá nhân do JEDEC đề xuất, một ổ SSD cấp doanh nghiệp được kỳ vọng chỉ có 1 bit lỗi không thể khôi phục được với tỷ lệ 1 bit lỗi trên mỗi 10 triệu tỷ bit (~1,11 Petabyte) so với một ổ SSD cấp cá nhân với tỷ lệ 1 bit lỗi trên 1 triệu tỷ bit (~0,11 Petabyte) được xử lý.

Ổ SSD cấp doanh nghiệp của Kingston cũng sẽ bổ sung các công nghệ cho phép khôi phục các khối dữ liệu bị lỗi sử dụng dữ liệu tương tự được lưu trữ trong các đế NAND (giống với ổ RAID, cho phép khôi phục những khối cụ thể mà có thể được xây dựng lại với dữ liệu tương tự được lưu trữ trong các khối khác).

Để bổ trợ các công nghệ khôi phục khối dữ liệu dư thừa được tích hợp vào ổ SSD cấp doanh nghiệp của Kingston, việc tạo điểm kiểm tra định kỳ, Kiểm tra Phần dư Tuần hoàn và sửa lỗi ECC cũng được thực thi trong một đồ án bảo vệ nội bộ từ đầu cuối đến đầu cuối để bảo đảm sự toàn vẹn của dữ liệu từ thiết bị chủ qua flash và quay trở lại thiết bị chủ. Bảo vệ dữ liệu từ đầu cuối đến đầu cuối có nghĩa là dữ liệu nhận được từ thiết bị chủ được kiểm tra tính toàn vẹn khi lưu trữ trong cache nội bộ của SSD và khi được ghi hoặc đọc lại từ các khu vực lưu trữ NAND.

Tương tự như chế độ bảo vệ ECC nâng cao trước các lỗi bit trong SSD cấp doanh nghiệp, SSD cũng có thể chứa các mạch vật lý để phát hiện ra việc mất điện và quản lý các tụ điện lưu trữ nguồn điện trên SSD. Tính năng hỗ trợ khi mất điện trong phần cứng theo dõi nguồn điện vào SSD và khi xảy ra mất điện đột ngột, nó cung cấp điện tạm thời cho mạch SSD bằng các tụ điện tantali để hoàn tất bất kỳ thao tác ghi nào chưa hoàn thành xuất phát từ bên ngoài hoặc bên trong trước khi tắt SSD. Mạch bảo vệ khi mất điện thường là bắt buộc với các ứng dụng mà trong đó dữ liệu mất đi không thể khôi phục được.

Tính năng bảo vệ khi mất điện cũng có thể được thực hiện trong firmware của SSD thông qua việc xóa thường xuyên dữ liệu trong các khu vực cache của bộ điều khiển SSD (ví dụ bảng Lớp FTranslation) để lưu vào bộ lưu trữ NAND – thao tác này không bảo đảm rằng dữ liệu sẽ không bị mất trong trường hợp mất điện nhưng cố gắng giảm thiểu tác động của các sự cố tắt nguồn không an toàn. Tính năng bảo vệ khi mất điện trên firmware cũng bảo đảm rằng SSD sẽ không trở nên không hoạt động được nữa sau khi gặp phải sự cố tắt nguồn không an toàn. 

Trong nhiều tình huống, việc sử dụng lưu trữ do phần mềm định nghĩa hoặc cụm máy chủ có thể giảm bớt nhu cầu hỗ trợ khi mất điện dựa trên phần cứng vì mọi dữ liệu đều được sao chép sang một thiết bị lưu trữ riêng biệt và độc lập trên một hoặc nhiều máy chủ khác nhau. Các trung tâm dữ liệu ở quy mô web thường cung cấp hỗ trợ khi mất điện sử dụng lưu trữ do phần mềm định nghĩa, trên thực tế, đến các máy chủ RAID để lưu trữ các bản sao dư thừa của cùng một dữ liệu.

Độ bền

Tất cả các bộ nhớ NAND Flash chứa trong thiết bị lưu trữ Flash đều giảm sút khả năng lưu trữ một lượng nhỏ dữ liệu với mỗi chu kỳ ghi hoặc xoá (P/E) của một ô nhớ NAND Flash cho đến khi khối NAND Flash không còn khả năng lưu trữ dữ liệu một cách tin cậy nữa, đến lúc đó một khối xấu hoặc xuống cấp sẽ được gỡ ra khỏi vùng nhớ có thể truy cập qua địa chỉ và địa chỉ khối logic (hay LBA) được di chuyển đến một địa chỉ vật lý mới trên dãy nhớ NAND Flash. Một khối lưu trữ mới thay thế khối hỏng sử dụng vùng Khối Dự trữ là một bộ phận của Dung lượng Dự phòng (OP) trên SSD.

Khi ô nhớ thường xuyên được ghi và xoá, BER cũng tăng lên theo tỷ lệ thuận và vì lý do này một tập hợp phức tạp các kỹ thuật quản lý phải được thực thi trên Bộ điều khiển của SSD cấp doanh nghiệp để quản lý khả năng của ô nhớ trong việc lưu trữ dữ liệu một cách tin cậy trong suốt thời gian chu kỳ hoạt động của SSD.{{Footnote.N52083}}

Độ bền P/E của một bộ nhớ NAND Flash nào đó có thể khác biệt rất nhiều phụ thuộc vào công nghệ sản xuất hiện tại và loại NAND Flash được sản xuất.

Loại bộ nhớ NAND FlashTLCMLCSLC
Kiến trúc 3 bit mỗi ô 2 bit mỗi ô 1 bit mỗi ô
Dung lượng Dung lượng cao nhất Dung lượng cao Dung lượng thấp nhất
Độ bền (P/E) Độ bền thấp nhất Độ bền trung bình Độ bền cao nhất
Chi phí $ $$ $$$$
Tỷ lệ bit lỗi (BER) NAND ước tính 10^4 10^7 10^9

Bảng 2 – Loại bộ nhớ NAND Flash {{Footnote.N52084}}{{Footnote.N52085}}

SSD cấp doanh nghiệp sẽ khác biệt với SSD cấp cá nhân về chu kỳ hoạt động. Một SSD cấp doanh nghiệp phải có khả năng chịu đựng được các hoạt động đọc hoặc ghi nặng trong các tình huống điển hình với một máy chủ trong trung tâm dữ liệu yêu cầu truy cập dữ liệu suốt 24 giờ mỗi ngày trong tuần so với một ổ SSD cấp cá nhân thường chỉ hoạt động tối đa 8 giờ mỗi ngày trong tuần. SSD cấp doanh nghiệp có chu kỳ làm việc 24x7 so với chu kỳ của SSD cấp cá nhân là 20/80 (20% thời gian hoạt động, 80% thời gian nghỉ hoặc ở chế độ ngủ khi máy tính bật).

Hiểu rõ độ bền ghi của bất kỳ ứng dụng hoặc SSD nào thường rất phức tạp, đó là lý do tại sao uỷ ban JEDEC cũng đã đề xuất một đơn vị đo độ bền sử dụng là giá trị số TeraByte được ghi (TBW) để biểu thị lượng dữ liệu nguyên gốc từ thiết bị chủ có thể được ghi vào SSD trước khi NAND Flash chứa trong SSD trở nên không đáng tin cậy và cần phải loại bỏ.

Sử dụng các phương pháp thử nghiệm JESD218A và tải công việc cấp doanh nghiệp JESD219 do JEDEC đề xuất giúp dễ dàng hơn khi diễn giải các tính toán về độ bền của nhà sản xuất thông qua TBW và ngoại suy một số đo về độ bền dễ hiểu hơn để có thể áp dụng cho bất kỳ trung tâm dữ liệu nào.

Như đã được ghi chú trong các văn bản JESD218 và JESD219, các tải công việc lớp ứng dụng khác nhau cũng có thể chịu một Hệ số Khuếch đại Ghi (WAF) có thông số cao hơn so với tốc độ ghi thực sự do thiết bị chủ đưa ra và dễ dàng dẫn đến sự hao mòn NAND Flash không thể quản lý được, BER của NAND Flash cao hơn do việc ghi quá nhiều qua thời gian và hiệu năng thấp hơn từ các trang không hợp lệ được phân phối rộng rãi trên khắp SSD.

Tuy TBW là một chủ đề quan trọng khi thảo luận về ổ SSD cho doanh nghiệp và cho máy khách nhưng TBW chỉ là một mô hình dự đoán độ bền cấp độ NAND Flash và Thời gian Trung bình giữa các Sự cố (MTBF) nên được coi là một mô hình dự đoán độ tin cậy và độ bền ở cấp độ thành phần dựa trên độ tin cậy của các thành phần được sử dụng trên thiết bị. Các thành phần của ổ SSD cấp doanh nghiệp được kỳ vọng sẽ tồn tại lâu hơn và hoạt động mạnh mẽ hơn trong việc quản lý điện áp trên khắp bộ nhớ NAND Flash trong suốt thời gian hoạt động của SSD. Tất cả ổ SSD cấp doanh nghiệp được đánh giá ít nhất ở mức một triệu giờ MTBF, tức là hơn 114 năm! Kingston đưa ra các thông số cho SSD của mình khá dè dặt và việc thấy thông số MTBF cao hơn trên các SSD khác không phải là không phổ biến; có một điều quan trọng cần lưu ý rằng 1 triệu giờ là một điểm khởi đầu quá đủ cho SSD cấp doanh nghiệp.

Việc giám sát và báo cáo S.M.A.R.T về các ổ SSD cấp doanh nghiệp cho phép thiết bị dễ dàng được truy vấn trước khi xảy ra sự cố để đảm bảo tuổi thọ dựa trên hệ số khuếch đại ghi (WAF) hiện tại và mức độ hao mòn. Các cảnh báo trước khi xảy ra sự cố như mất điện, các lỗi bit xảy ra từ giao tiếp vật lý hoặc phân bố hao mòn không đồng đều cũng thường được hỗ trợ. Tiện ích Kingston SSD Manager có thể tải về từ trang web của Kingston và được dùng để xem tình trạng của ổ.

Các ổ SSD cấp cá nhân có thể chỉ trang bị tối thiểu đầu ra S.M.A.R.T. để giám sát ổ SSD trong quá trình sử dụng thông thường hoặc sau khi xảy ra sự cố.

Tuỳ thuộc vào lớp ứng dụng và dung lượng của SSD, việc tăng dung lượng dự trữ của bộ nhớ NAND Flash cũng có thể được cấp phát như một vùng lưu trữ dự phòng (OP). Dung lượng OP được giấu khỏi người dùng và hệ điều hành và có thể được sử dụng như một vùng đệm ghi tạm thời để nâng cao hiệu năng liên tục và là một giải pháp thay thế các ô nhớ Flash bị lỗi trong suốt thời gian hoạt động của SSD nhằm nâng cao độ tin cậy và độ bền của SSD (với số lượng Khối Dự trữ lớn hơn).

Kết luận

Tất cả các bộ nhớ NAND Flash chứa trong thiết bị lưu trữ Flash đều giảm sút khả năng lưu trữ một lượng nhỏ dữ liệu với mỗi chu kỳ ghi hoặc xoá (P/E) của một ô nhớ NAND Flash cho đến khi khối NAND Flash không còn khả năng lưu trữ dữ liệu một cách tin cậy nữa, đến lúc đó một khối xấu hoặc xuống cấp sẽ được gỡ ra khỏi vùng nhớ có thể truy cập qua địa chỉ và địa chỉ khối logic (hay LBA) được di chuyển đến một địa chỉ vật lý mới trên dãy nhớ NAND Flash. Một khối lưu trữ mới thay thế khối hỏng sử dụng vùng Khối Dự trữ là một bộ phận của Dung lượng Dự phòng (OP) trên SSD.

Khi ô nhớ thường xuyên được ghi và xoá, BER cũng tăng lên theo tỷ lệ thuận và vì lý do này một tập hợp phức tạp các kỹ thuật quản lý phải được thực thi trên Bộ điều khiển của SSD cấp doanh nghiệp để quản lý khả năng của ô nhớ trong việc lưu trữ dữ liệu một cách tin cậy trong suốt thời gian chu kỳ hoạt động của SSD.

Bài viết liên quan