Servers in a data center

4 điều mà các nhà quản lý trung tâm dữ liệu có thể học hỏi từ những chiếc siêu máy tính nhanh nhất thế giới

Nếu bạn hỏi một người bình thường trên đường xem họ nghĩ một chiếc siêu máy tính là thế nào, có lẽ phần lớn các câu trả lời mà bạn nhận được sẽ nói đến ví dụ từ các bộ phim nổi tiếng và thường là các ví dụ liên quan đến tội ác. Từ HAL 9000 (2001: A Space Odyssey) đến VIKI của iRobot, và thậm chí là Skynet của The Terminator; văn hóa đại chúng thường thể hiện siêu máy tính như là những hệ thống hữu tình đã tiến hóa và chống lại loài người.

Nếu bạn nói điều đó với các nhà nghiên cứu tại Phòng thí nghiệm Quốc gia Lawrence Livermore hay Cục Khí tượng Quốc gia, họ chắc chắn sẽ cười phá lên cho xem. Sự thật là ngày nay các siêu máy tính còn lâu mới có khả năng tự nhận thức và AI, về cơ bản, chỉ là một thanh tìm kiếm được thổi phồng là đang quét những tập dữ liệu rất lớn.

Ngày nay, các siêu máy tính đang hỗ trợ rất nhiều các ứng dụng đi đầu về sự tiến bộ: từ việc thăm dò dầu khí đến dự báo thời tiết, thị trường tài chính đến phát triển các công nghệ mới. Siêu máy tính là những chiếc Lamborghini hay Bugatti của thế giới điện toán, và tại Kingston, chúng tôi rất quan tâm đến những tiến bộ đang ngày càng mở rộng các giới hạn tính toán. Từ việc tận dụng và tinh chỉnh DRAM đến những tiến bộ về firmware trong việc quản lý mảng lưu trữ, đến thậm chí là sự nhấn mạnh vào tính ổn định của tốc độ truyền và độ trễ thay vì các giá trị tối đa, các công nghệ của chúng ta chịu ảnh hưởng sâu sắc của siêu máy tính tối tân.

Tương tự vậy, có rất nhiều điều mà các nhà quản lý trung tâm dữ liệu đám mây và tại chỗ có thể học hỏi từ siêu máy tính khi nói đến thiết kế và quản lý hạ tầng của họ, cũng như cách tốt nhất để chọn các linh kiện sẽ sẵn sàng cho các tiến bộ trong tương lai mà không phải đổi mới nhiều.

Điện toán thời gian thực
1. Siêu máy tính được chế tạo đặc biệt để mang lại sự ổn định

Không giống các nền tảng điện toán đám mây như Amazon Web Services hay Microsoft Azure được xây dựng để hỗ trợ nhiều ứng dụng có thể tận dụng các tài nguyên và cơ sở hạ tầng dùng chung, hầu hết các siêu máy tính được xây dựng đặc biệt cho những nhu cầu cụ thể. Danh sách TOP500 siêu máy tính nhanh nhất thế giới cập nhật gần đây nhất (được công khai và giải mật), không chỉ thể hiện vị trí và tốc độ của các cơ sở mà còn cho biết lĩnh vực ứng dụng chính.

Mười một trong số mười hai cỗ máy hàng đầu được dành cho nghiên cứu năng lượng, thử nghiệm hạt nhân và ứng dụng quốc phòng. Ngoại lệ duy nhất là Frontera, một hệ thống điện toán có quy mô peta được NSF tài trợ tại Trung tâm Điện toán Nâng cao Texas thuộc Đại học Texas, cung cấp tài nguyên cho các đối tác nghiên cứu khoa học và kỹ thuật. Trong số 20 siêu máy tính tiếp theo trong danh sách TOP500, hầu hết đều dành cho các ứng dụng quốc phòng và tình báo của chính phủ. Các siêu máy tính ở vị trí 30-50 trên danh sách phần lớn được dành cho việc dự báo thời tiết. 50 siêu máy tính cuối cùng trong số 100 siêu máy tính hàng đầu được sử dụng cho nhiều mục đích hỗn hợp gồm điện toán doanh nghiệp (NVIDIA, Facebook, v.v.), dự báo thời tiết tầm trung, chương trình không gian, thăm dò dầu khí, nghiên cứu học thuật và dự án chính phủ cụ thể.

Những cỗ máy này không phải toàn năng. Chúng được phát triển tùy biến với các nhà sản xuất như Intel, Cray, HP, Toshiba và IBM để thực hiện các loại tính toán đặc thù trên những tập dữ liệu rất đặc thù ― hoặc trong thời gian thực hoặc tính toán phi đồng bộ.

Họ đã định nghĩa các ngưỡng độ trễ có thể chấp nhận được:

  • Tài nguyên điện toán định sẵn tận dụng hàng triệu nhân xử lý
  • Mang lại tốc độ xung nhịp trong khoảng 18.000 - 200.000 teraFLOPS.

Dung lượng lưu trữ của những cỗ máy này được tính bằng exabyte, vượt xa rất nhiều so với petabyte trong các nhà kho dữ liệu hiện đại.

Các hệ thống như Frontera không chỉ phải chạy nước rút trong một tải tính toán tối đa, mà phải đọc ổn định khối lượng dữ liệu khổng lồ để tạo ra một kết quả. Hiệu năng tính toán tăng lên đột ngột thực tế có thể gây ra lỗi ở kết quả, do đó trọng tâm là sự ổn định.

Các nhà quản lý trung tâm dữ liệu ngày nay trước tiên cần phải hỏi “Chúng ta sẽ làm gì với hệ thống?” để có thể kiến tạo, quản lý tài nguyên và xây dựng các hệ thống an toàn trước sự cố dự đoán được. Quản lý một trung tâm dữ liệu chạy một cụm máy tính để bàn ảo khác biệt rất nhiều so với một tổng đài 911 hay hệ thống kiểm soát không lưu. Mỗi hệ thống có các nhu cầu, yêu cầu thỏa thuận cấp độ dịch vụ và ngân sách khác nhau - và cần được thiết kế theo đó.

Tương tự vậy, cần phải xem xét cách đạt được hiệu năng ổn định mà không yêu cầu các hệ thống tùy biến. Các công ty như Amazon, Google và Microsoft có ngân sách để xây dựng các hạ tầng lưu trữ hoặc điện toán tùy biến, nhưng phần lớn các nhà cung cấp dịch vụ phải chọn lọc hơn với phần cứng sẵn có.

Do đó, ngày càng có nhiều nhà quản lý trung tâm dữ liệu thấy cần đặt ra các tiêu chuẩn chặt chẽ cho các điểm chuẩn hiệu năng nhằm giải quyết vấn đề QoS và bảo đảm không chỉ chú trọng vào tốc độ tính toán và độ trễ mà còn phải chú trọng vào độ ổn định.

máy chủ với các đường rực sáng đại diện cho một mạng lưới
2. Thời gian thực của bạn không phải là thời gian thực của tôi

Với các ứng dụng siêu tính toán, hều hết các trường hợp dữ liệu thời gian thực đều có những tác động lớn. Từ việc dừng một phản ứng hạt nhân đến dữ liệu từ xa cho một vụ phóng tên lửa, độ trễ tính toán có thể có tác động khủng khiếp ― và số lượng tập dữ liệu là khổng lồ. Những dòng truyền này không chỉ cấp từ một nguồn duy nhất mà thường được cung cấp từ một mạng lưới các nốt báo cáo.

Nhưng dữ liệu có tuổi thọ ngắn. Khi làm việc với thông tin thời gian thực, hầu hết dữ liệu đều không được giữ mãi mãi. Chúng được ghi và sau đó ghi đè với vòng đời cho thao tác ghi và ghi đè nối tiếp. Dữ liệu thời gian thực luôn thay đổi và rất ít ứng dụng cần lưu trữ mọi bit từ lúc bắt đầu. Dữ liệu được xử lý theo bó, được tính toán để tạo ra một kết quả (dù đó là một con số trung bình, mô hình thống kê hay thuật toán) và kết quả là thứ được giữ lại.

Hãy lấy những dự đoán của siêu máy tính thuộc Cục quản lý Hải dương và Khí quyển Quốc gia (NOAA) làm ví dụ. Luôn có những thay đổi liên tục trong các yếu tố khí tượng học, dù đó là lượng mưa, không khí và nhiệt độ mặt đất, áp suất khí quyển, thời gian trong ngày, hiệu ứng mặt trời, gió và thậm chí là cách gió thổi qua địa hình. Điều này thay đổi mỗi giây và được báo cáo như một dòng thông tin thời gian thực. Nhưng Cục Thời tiết Quốc gia (NWS) thuộc NOAA không phải lúc nào cũng cần dữ liệu thô. Bạn cần các mô hình dự báo! Khi mô hình hệ thống dự báo toàn cầu (GFS) thành hình, dữ liệu mới sẽ được đẩy qua đó, tạo nên những dự đoán cập nhật và chính xác hơn.

Thêm vào đó, các nhà khí tượng địa phương khi chia sẻ và nhận dữ liệu từ NWS không cần truy cập toàn bộ tập dữ liệu thời tiết toàn cầu. Họ chỉ giới hạn các mô hình của mình trong những khu vực địa phương. Điều này cho phép họ bổ sung dữ liệu của NWS bằng các trạm thời tiết địa phương, nhờ đó cung cấp thông tin về các kiểu tiểu khí hậu và tăng tốc các dự đoán địa phương chính xác hơn bằng cách tạo ra các bó, được tính toán để tạo ra kết quả (dù đó là một con số trung bình, mô hình thống kê hay thuật toán) và kết quả là thứ được giữ lại.

Cũng có thể nói điều tương tự với mua bán cổ phiếu hoặc các mô hình tài chính làm việc với các đường trung bình động - mỗi đường có các chỉ số cụ thể và yếu tố kích hoạt hành động được tích hợp, dựa trên các tham số cụ thể cho các ngưỡng hành vi thị trường chấp nhận được. Thiết kế một hệ thống sử dụng dữ liệu “thời gian thực” không cần phải lưu trữ mọi thứ hệ thống thu thập mà cần tận dụng bộ nhớ truy cập ngẫu nhiên không biến đổi (NVRAM) và bộ nhớ truy cập ngẫu nhiên động (DRAM) để lưu cache và xử lý dữ liệu khi di chuyển, sau đó cung cấp đầu ra đã tính toán đến lưu trữ.

minh họa chip nhớ flash với các đường mạch phát sáng
3. Ngưỡng độ trễ, NAND Flash và DRAM tinh chỉnh

Hầu hết các ngưỡng độ trễ được thiết lập do các nhu cầu ứng dụng. Trong các tình huống thương mại, một vài giây có nghĩa là hàng triệu, nếu không muốn nói là hàng tỷ đô-la. Đối với dự báo thời tiết và theo dõi đường đi của bão, điều này có thể nghĩa là quyết định sơ tán New Orleans hay Houston.

Siêu máy tính hoạt động với nghĩa vụ cấp độ dịch vụ tiên nghiệm - cho dù đó là độ trễ, tài nguyên tính toán, lưu trữ hay băng thông. Hầu hết đều sử dụng điện toán ý thức về sự cố, trong đó hệ thống có thể tái định tuyến các luồng dữ liệu cho điều kiện độ trễ tối ưu (dựa trên đo lường 𝛱+Δmax), chuyển sang các mô hình điện toán phi đồng bộ, hoặc ưu tiên tài nguyên tính toán để mang lại đủ sức mạnh xử lý hoặc băng thông cho tác vụ.

Cho dù bạn đang làm việc với các máy trạm cao cấp, máy chủ iron hay HPC và khối lượng công việc khoa học, máy tính lớn và dữ liệu lớn đòi hỏi những tải DRAM khổng lồ. Các siêu máy tính như Thiên Hà-2, sử dụng những tải RAM khổng lồ kết hợp với các thẻ tăng tốc chuyên dụng. Cách thức siêu máy tính tinh chỉnh phần cứng và khung điều khiển là duy nhất đối với thiết kế ứng dụng. Thông thường, các tác vụ tính toán đặc thù, trong đó việc truy cập đĩa tạo ra một điểm nghẽn khổng lồ với yêu cầu về RAM, khiến cho DRAM trở nên không thực tế nhưng đủ nhỏ để đặt vừa vào NAND flash. Cụm FPGA cũng được tinh chỉnh thêm cho mỗi tải công việc cụ thể để bảo đảm các tập dữ liệu lớn sụt giảm hiệu năng nếu chúng phải sử dụng phương tiện truyền thống để truy xuất dữ liệu.

Các nhóm cộng tác giữa Đại học Utah, Phòng thí nghiệm Lawrence Berkeley, Đại học Nam California và Phòng thí nghiệm Quốc gia Argonne đã cho thấy Tinh chỉnh Hiệu năng Tự động (hay Tự động tinh chỉnh) là một cách hiệu quả để cung cấp khả năng hiệu năng di động giữa các kiến trúc. Thay vì phụ thuộc vào một trình biên dịch có thể mang lại hiệu năng tối ưu trên các kiến trúc đa nhân mới hơn, các nhân được tự động tinh chỉnh và ứng dụng có thể tự động tinh chỉnh trên CPU, mạng và mô hình lập trình đích.

một nhân viên IT đội mũ bảo hiểm đang làm việc với laptop ở trước màn hình minh họa
4. Nhiều lớp an toàn trước sự cố

Phân phối năng lượng bên trong một trung tâm dữ liệu HPC ngày càng trở nên thách thức, đặc biệt là với các hạ tầng được tận dụng làm tài nguyên chia sẻ. Trong các hạ tầng dự phòng chuyên biệt hoặc như một dịch vụ, các trung tâm dữ liệu cần bảo đảm việc hoạt động liên tục và giảm rủi ro làm hư hỏng các linh kiện phần cứng mong manh trong trường hợp mất điện, tăng đột ngột hoặc thay đổi nhu cầu tối đa.

Các kiến trúc sư sử dụng một hỗn hợp các máy biến thế phân phối tổn thất:

  • Phân phối nguồn DC và sao lưu UPS,
  • Tam phát (tạo ra điện thông qua nhiệt để lưu trữ dự phòng)
  • Giám sát tích cực
“Lưu và lưu thường xuyên” là thần chú cho mọi ứng dụng và điều này cũng đúng đối với các trung tâm dữ liệu nơi mà “sao lưu” trở thành một thuật ngữ vận hành.

Hầu hết các trung tâm dữ liệu ngày nay đều hoạt động với một cấu trúc RAID cấp độ cao để bảo đảm thao tác ghi liên tục và gần như đồng thời trên khắp các mảng lưu trữ. Ngoài ra, các hạ tầng HPC tận dụng một số lượng NVRAM lớn để lưu dữ liệu đang xử lý vào cache, chúng là các dòng truyền dữ liệu trực tiếp không kéo trên khắp các mảng lưu trữ hoặc là thông tin được xử lý song song tạo ra một sử dụng giống với đĩa cào để giải phóng thêm tài nguyên tính toán. Hệ thống Frontera đã đề cập trước đó tận dụng 50PB tổng dung lượng cào. Người dùng có yêu cầu băng thông hoặc IOPS rất cao sẽ có thể yêu cầu một phân bổ trên một hệ thống tập tin toàn NVMe (non-volatile memory express) với dung lượng khoảng 3PB, và băng thông ~1,2TB/giây.

Việc sao lưu RAID cho lưu trữ thường xuyên này và việc lưu cache ổn định của các bộ đệm NVME phụ thuộc vào tổng ngưỡng I/O cho các bộ điều khiển trên thiết bị, và cho tổng băng thông khả dụng hoặc dự phòng cho lưu trữ/sao lưu từ xa.

Hầu hết các hạ tầng HPC cũng đang loại bỏ xác suất xảy ra sự cố phần cứng với đĩa quay bằng cách chuyển hoàn toàn sang các mảng thể rắn và khối lưu trữ flash. Những giải pháp lưu trữ này cung cấp IOPS ổn định và có độ trễ dự đoán được nằm trong các ngưỡng độ trễ của ứng dụng cụ thể. Nhiều siêu máy tính cũng tận dụng nhiều thư viện băng từ (với dung lượng có thể mở rộng lên đến exabyte hoặc nhiều hơn), để lưu trữ dữ liệu tin cậy cho mọi bit được xử lý và lưu trữ.

Nhiều siêu máy tính cũng bảo đảm rằng nếu tất cả mọi thứ khác gặp sự cố trong chuỗi, thì sẽ có các tụ điện (P-Cap) bảo vệ chống mất điện (Pfail), cũng được gọi là PLP, được lắp đặt trên SSD và DRAM. P-Cap cho phép ổ (hoặc độc lập hoặc trên khắp một mảng) hoàn thành thao tác ghi đang diễn ra, do đó giảm khối lượng dữ liệu có khả năng bị mất trong một sự cố mất điện nghiêm trọng.

Kết luận

Một lần nữa, tùy biến là chìa khóa trong thế giới siêu máy tính, nhưng biết rõ nhu cầu của bạn là bước đầu tiên khi xây dựng một trung tâm dữ liệu và cách đạt được loại hiệu năng ổn định nhất. Bất kể kích thước của trung tâm dữ liệu là bao nhiêu, tại sao không nghĩ rằng điều đó là quan trọng hoặc về khía cạnh của một siêu máy tính khi nói đến việc tạo ra, lưu trữ hoặc chia sẻ dữ liệu. Với việc đánh giá những yếu tố này, các kiến trúc sư có thể thiết kế các hạ tầng hiệu năng cao sẵn sàng cho các tiến bộ trong tương lai, ngay cả với các linh kiện sẵn có.

#KingstonIsWithYou

Bài viết liên quan