Servers in a data center

4 Hal yang Dapat Dipelajari oleh Manajer Pusat Data dari Superkomputer Tercepat

Jika Anda bertanya kepada orang awam apa itu superkomputer, mungkin sebagian besar akan mengutip dari film populer ― dan, biasanya mencontohkan hal buruknya. Mulai dari HAL 9000 (2001: A Space Odyssey) hingga VIKI di film iRobot, bahkan Skynet di film The Terminator; budaya populer sering menganggap superkomputer sebagai sistem hidup yang telah berevolusi dan berbalik melawan manusia.

Namun hal itu tidak berlaku untuk peneliti di Laboratorium Nasional Lawrence Livermore atau Layanan Cuaca Nasional. Faktanya adalah superkomputer saat ini jauh dari kesadaran diri, dan AI pada dasarnya adalah kolom pencarian luar biasa yang mampu memindai kumpulan data dalam jumlah sangat besar.

Saat ini, superkomputer mendukung banyak aplikasi yang berada di garis depan kemajuan: mulai dari eksplorasi minyak dan gas hingga prediksi cuaca, pasar keuangan, dan pengembangan teknologi baru. Superkomputer ibarat Lamborghini atau Bugatti dari dunia komputasi, dan di Kingston, kami berfokus pada kemajuan yang mendorong batasan komputasi. Mulai dari pemanfaatan dan penyetelan DRAM, hingga kemajuan firmware dalam mengelola susunan penyimpanan, hingga berfokus pada konsistensi kecepatan transfer dan latensi dibandingkan nilai puncak, teknologi kami sangat dipengaruhi oleh kecanggihan superkomputer.

Demikian pula, ada banyak hal yang dapat dipelajari oleh manajer pusat data cloud dan lokal dari superkomputer untuk merancang dan mengelola infrastruktur, serta cara terbaik untuk memilih komponen yang siap untuk kemajuan di masa mendatang tanpa banyak perbaikan.

server dengan garis bercahaya yang mewakili jaringan
1. Superkomputer Dibuat Khusus untuk Konsistensi

Tidak seperti kebanyakan platform komputasi Cloud, seperti Amazon Web Services atau Microsoft Azure yang dibuat untuk menunjang berbagai aplikasi yang dapat memanfaatkan sumber daya dan infrastruktur bersama, sebagian besar superkomputer dibuat khusus untuk kebutuhan tertentu. Kabar terbaru dari daftar TOP500 superkomputer tercepat di dunia (dikenal banyak orang dan tidak diklasifikasikan), mencatat tidak hanya lokasi dan kecepatan penginstalan saja, tetapi juga bidang aplikasi utama.

Sebelas dari sekian puluh mesin teratas ditujukan khusus untuk penelitian energi, pengujian nuklir, dan aplikasi pertahanan. Satu-satunya yang berbeda adalah Frontera, sistem komputasi petascale baru yang didanai oleh NSF di Pusat Komputasi Lanjut Texas di Universitas Texas, yang menyediakan sumber daya akademik untuk mitra penelitian sains dan teknik. Dari 20 superkomputer berikutnya dalam daftar TOP500, hampir semua ditujukan khusus untuk aplikasi pertahanan dan intelijen Pemerintah. Mesin di antara angka 30-50 dalam daftar sebagian besar ditujukan khusus untuk prediksi cuaca. 50 dari 100 mesin teratas terakhir adalah gabungan dari komputasi perusahaan (NVIDIA, Facebook, dll), prediksi cuaca menengah, program luar angkasa, eksplorasi minyak dan gas, penggunaan akademis dan pemerintahan khusus.

Mesin-mesin tersebut bukanlah sesuatu yang multifungsi. Mereka dikembangkan khusus bersama produsen seperti Intel, Cray, HP, Toshiba, dan IBM untuk melakukan jenis penghitungan tertentu pada kumpulan data yang sangat spesifik ― baik dalam penghitungan real-time maupun asinkron.

Produsen tersebut telah menetapkan ambang batas latensi yang dapat diterima:

  • Preset sumber daya komputasi meningkatkan jutaan inti pemrosesan
  • Memberikan laju jam antara 18.000 hingga 200.000 teraFLOPS.

Kapasitas penyimpanannya diukur dalam exabytes ― jauh melampaui petabytes di penyimpanan data modern.

Sistem seperti Frontera tidak hanya menjalankan beban penghitungan puncak, tetapi sebaliknya, harus secara konsisten membaca data dalam jumlah besar untuk mendapatkan hasil. Lonjakan performa komputasi sebenarnya dapat menyebabkan kesalahan dalam mendapatkan hasil, oleh karena itu harus berfokus pada konsistensi.

Pertanyaan yang tepat untuk manajer pusat data hari ini adalah, "Apa yang kita lakukan dengan sistem?," agar dapat merancang, mengelola sumber daya, dan membuat fail-safe yang bisa diprediksi. Mengelola pusat data yang menjalankan banyak desktop virtual jauh berbeda dengan pusat panggilan 911 atau sistem kontrol lalu lintas udara. Mereka memiliki kebutuhan, tuntutan, perjanjian, dan anggaran tingkat layanan yang berbeda - dan perlu dirancang sesuai kebutuhan.

Demikian pula, perlu adanya pertimbangan tentang cara mencapai performa yang konsisten tanpa memerlukan pembuatan kustom. Perusahaan seperti Amazon, Google, dan Microsoft memiliki anggaran untuk merekayasa penyimpanan kustom atau infrastruktur komputasi, tetapi sebagian besar penyedia layanan harus lebih selektif dengan perangkat keras yang tidak tersedia.

Dengan demikian, makin banyak manajer pusat data yang perlu menetapkan kriteria yang ketat untuk benchmark performa yang menangani QoS dan menetapkan penekanan yang paling besar tidak hanya pada kecepatan dan latensi komputasi, tetapi juga pada konsistensi.

server dengan garis bercahaya yang mewakili jaringan
2. Waktu Real-Time yang Berbeda

Dengan penggunaan superkomputer, sebagian besar keberadaan data real-time memiliki implikasi yang besar. Mulai dari menghentikan reaksi nuklir hingga data telemetri untuk peluncuran roket, latensi komputer dapat menyebabkan efek bencana ― begitu pula dengan kumpulan data yang sangat besar. Data tersebut tidak hanya berasal dari satu sumber; tetapi sering dikirim dari jaringan node pelaporan.

Namun datanya tidak bertahan lama. Ketika beroperasi dalam real-time, sebagian besar data tidak bertahan selamanya. Data ditulis, kemudian ditimpa dengan masa penyimpanan sesuai dengan urutannya. Data real-time selalu berubah, dan sangat sedikit aplikasi yang membutuhkan penyimpanan setiap bit sejak awal penyimpanannya. Data diproses dalam sekumpulan data, dihitung untuk membuat hasil (baik rata-rata, model statistik, atau algoritma) dan hasilnya adalah apa yang disimpan.

Contohnya adalah prediksi superkomputer dari Administrasi Oseanografi dan Atmosfer Nasional (NOAA). Selalu ada perubahan konstan dalam faktor meteorologi, baik itu curah hujan, suhu udara dan tanah, tekanan barometrik, waktu, efek tenaga surya, angin, dan bahkan bagaimana perubahan tersebut melewati wilayah. Perubahan terjadi setiap detik dan dilaporkan sebagai informasi langsung secara real-time. Namun, Layanan Cuaca Nasional (NWS) dari NOAA tidak membutuhkan data mentah selamanya. Anda memerlukan model ramalan! Ketika model sistem ramalan global (GFS) terbentuk, data baru akan diperoleh melalui GFS sehingga menghasilkan prediksi yang lebih akurat dan diperbarui.

Selain itu, ahli meteorologi lokal yang membagi dan menerima data dari NWS tidak memerlukan akses ke seluruh kumpulan data cuaca global. Mereka hanya perlu membatasi model sistem ramalan untuk area lokal. Hal ini memungkinkan ahli meteorologi melengkapi data NWS dengan stasiun cuaca lokal sehingga dapat memberikan informasi mengenai iklim mikro dan mempercepat prediksi lokal yang lebih akurat oleh kumpulan kreatin, yang dihitung untuk membuat hasil (baik itu rata-rata, model statistik, atau algoritma) dan hasilnya adalah apa yang disimpan.

Hal yang sama juga dapat berlaku untuk perdagangan saham, atau model keuangan, di mana bekerja dengan rata-rata yang bergerak - masing-masing dengan indikator dan pemicu tindakan bawaan yang terintegrasi, berdasarkan pada parameter khusus untuk ambang perilaku pasar yang dapat diterima. Merancang sistem yang menggunakan data "real-time" tidak harus menyimpan semua data yang didapat - tetapi harus memanfaatkan non-volatile random access memory (NVRAM) dan dynamic random access memory (DRAM) untuk menyimpan dan memproses data dalam performanya, kemudian mengirimkan hasil yang dihitung ke penyimpanan.

ilustrasi chip memori flash dengan jejak sirkuit bercahaya
3. Ambang Batas Latensi, NAND Flash, dan Tuning DRAM

Sebagian besar ambang latensi ditetapkan karena tuntutan aplikasi. Dalam skenario perdagangan, setiap detik bernilai jutaan bahkan miliaran dolar. Untuk prediksi cuaca dan pelacak badai, mungkin bisa berarti mengambil keputusan antara mengungsi dari New Orleans atau Houston.

Superkomputer bekerja dengan beban tingkat layanan priori - baik itu latensi, sumber daya komputasi, penyimpanan, atau bandwidth. Sebagian besar menggunakan komputasi fail-aware, di mana sistem dapat mengalihkan aliran data untuk kondisi latensi yang optimal (berdasarkan 𝛱+ Δmax clocking), beralih ke model komputasi asinkron, atau memprioritaskan sumber daya komputasi untuk memberikan daya pemrosesan atau bandwidth yang cukup untuk melakukan pekerjaan.

Baik bekerja dengan stasiun kerja kelas atas, server iron, atau beban kerja ilmiah dan HPC, komputer besar dan Big Data memerlukan pemuatan DRAM yang sangat besar. Superkomputer seperti Tianhe-2, menggunakan pemuatan RAM besar yang dipadukan dengan kartu akselerator khusus. Superkomputer memiliki cara yang unik untuk menyempurnakan perangkat keras dan kerangka kerja pengontrol untuk desain aplikasi. Sering kali tugas komputasi tertentu, di mana akses disk mengakibatkan hambatan besar dengan persyaratan RAM, membuat DRAM tidak praktis tetapi cukup kecil untuk masuk ke NAND flash. Rangkaian FPGA selanjutnya juga disesuaikan untuk setiap beban kerja tertentu guna memastikan kumpulan data mencapai performa besar jika harus menggunakan media biasa untuk mengambil data.

Kolaborasi tim antara Universitas Utah, Laboratorium Lawrence Berkeley, Universitas California Selatan, dan Laboratorium Nasional Argonne telah menunjukkan model baru untuk Penyesuaian Performa Otomatis (atau Auto-tuning) sebagai cara yang efektif untuk memberikan portabilitas performa antar struktur desain. Dibanding bergantung pada compiler yang dapat memberikan performa optimal pada struktur desain multicore yang lebih baru, kernel dan aplikasi yang disesuaikan secara otomatis dapat menyesuaikan target CPU, jaringan, dan model pemrograman secara otomatis.

Orang IT yang bekerja memakai helm dengan laptop di depan ilustrasi tampilan peringatan
4. Banyak Lapisan Fail-Safe

Distribusi energi dalam pusat data HPC makin menantang ― terutama dengan infrastruktur yang dimanfaatkan sebagai sumber daya bersama. Baik dalam infrastruktur khusus maupun yang tersedia sebagai layanan, pusat data perlu memastikan pengoperasian yang berkelanjutan dan mengurangi risiko rusaknya komponen perangkat keras jika terjadi gangguan daya, lonjakan, atau perubahan permintaan puncak.

Struktur desain menggunakan campuran transformator distribusi hilang:

  • Distribusi daya DC dan cadangan UPS,
  • Trigeneration (membuat aliran listrik melalui panas untuk disimpan dalam cadangan)
  • Pemantauan aktif
"Simpan dan sering-sering simpan" adalah mantra untuk semua aplikasi, begitu pula dengan pusat data di mana "cadangan" menjadi istilah operasi utamanya.

Sebagian besar pusat data saat ini beroperasi dengan struktur RAID tingkat tinggi untuk memastikan penulisan berkelanjutan dan hampir bersamaan di seluruh susunan penyimpanan. Selain itu, infrastruktur HPC memanfaatkan NVRAM dalam jumlah besar untuk proses menyimpan data, yang merupakan aliran langsung data yang tidak menggunakan susunan penyimpanan, atau informasi yang diproses paralel yang mengakibatkan penggunaan disk-esque awal untuk membebaskan sumber daya komputasi tambahan. Sistem Frontera yang disebutkan sebelumnya memanfaatkan 50PB dari total kapasitas awal. Pengguna dengan bandwidth yang sangat tinggi atau persyaratan IOPS dapat meminta alokasi pada sistem semua file NVMe (non-volatile memory express) dengan perkiraan kapasitas 3PB, dan bandwidth ~1,2TB/dtk.

Pencadangan RAID dan penyimpanan buffer NVMe yang konsisten bergantung pada total ambang I/O pengontrol pada perangkat, total bandwidth yang tersedia atau disediakan untuk penyimpanan/cadangan jarak jauh.

Sebagian besar infrastruktur HPC juga mengeliminasi kegagalan perangkat keras melalui drive yang berputar dengan cara sepenuhnya beralih ke susunan solid-state dan blok penyimpanan flash. Solusi penyimpanan ini memberikan IOPS yang konsisten dan memiliki latensi yang dapat diprediksi, termasuk dalam ambang latensi khusus aplikasi. Banyak superkomputer juga memanfaatkan beberapa pustaka pita (dengan kapasitas yang dapat ditingkatkan ke exabyte atau lebih) guna memiliki arsip data yang dapat diandalkan untuk setiap bit yang diproses dan disimpan.

Banyak juga yang memastikan jika terjadi kesalahan dalam rantai, ada kapasitor daya (P-Cap) rusak (PFail) atau power-loss-protection (PLP) yang dipasang pada SSD dan DRAM. P-Cap memungkinkan drive (baik independen atau lintas susunan) untuk menyelesaikan penulisan yang sedang berlangsung, sehingga mengurangi jumlah data yang berpotensi hilang selama terjadinya kesalahan.

Penutup

Sekali lagi, kustom adalah bagian terpenting dalam dunia superkomputer, tetapi mengetahui kebutuhan Anda adalah langkah pertama saat membuat pusat data dan cara mencapai jenis performa yang paling konsisten. Tidak peduli berapa ukuran pusat datanya, mengetahui kebutuhan Anda adalah yang terpenting dalam hal superkomputer untuk menghasilkan, menyimpan, atau berbagi data. Dengan mengevaluasi faktor tersebut, arsitek dapat merancang infrastruktur performa tinggi yang siap digunakan untuk kemajuan pada masa mendatang, bahkan dengan komponen yang tidak tersedia.

#KingstonIsWithYou

Minta Bantuan Pakar