Servers in a data center

4 สิ่งที่ผู้จัดการศูนย์ข้อมูลสามารถเรียนรู้จากซุปเปอร์คอมพิวเตอร์ที่เร็วที่สุด

หากคุณได้ไปถามคนทั่วไปตามท้องถนนว่าพวกเขาคิดว่าซุปเปอร์คอมพิวเตอร์หมายถึงอะไร คุณอาจได้ยินหลาย ๆ คนยกตัวอย่างจากภาพยนตร์ชื่อดัง ซึ่งมักเป็นตัวอย่างในแง่ที่ไม่ค่อยดีนัก จาก HAL 9000 (2001: A Space Odyssey) ไปจนถึงหุ่นยนต์ VIKI จาก iRobot หรือแม้แต่สกายเน็ตจากเทอร์มิเนเตอร์ สื่อร่วมสมัยมักกล่าวถึงซุปเปอร์คอมพิวเตอร์ในฐานะระบบที่มีความรู้สึกซึ่งพัฒนาตัวเองและเข้ามาต่อสู้กับมนุษย์

หากพูดถึงเรื่องเดียวกันนี้กับนักวิจัยที่ Lawrence Livermore National Laboratory หรือ National Weather Service พวกเขาอาจหัวเราะจนคุณต้องถอยออกมาเอง ความจริงก็คือซุปเปอร์คอมพิวเตอร์ในปัจจุบันยังไม่ได้มีสติปัญญาในการจัดการตัวเองอย่างที่เราคิด AI ที่เราพูดถึงก็แค่แถบการค้นหาที่ทำหน้าที่สแกนชุดข้อมูลขนาดใหญ่เป็นจำนวนมาก

ในปัจจุบัน ซุปเปอร์คอมพิวเตอร์ทำหน้าที่เป็นขุมพลังของส่วนการใช้งานจำนวนมากที่เป็นหัวหอกด้านวิวัฒนาการที่สำคัญ ทั้งในอุตสาหกรรมการสำรวจน้ำมันและก๊าซ ไปจนถึงการพยากรณ์อากาศ การวิเคราะห์ตลาดการเงิน และการพัฒนาเทคโนโลยีใหม่ ๆ ซุปเปอร์คอมพิวเตอร์คือลัมโบกินี่หรือบูกัตติของโลกคอมพิวเตอร์นั่นเอง และที่ Kingston เราให้ความใส่ใจอย่างมากกับพัฒนาการที่พร้อมขับเคลื่อนระบบประมวลผลให้พ้นขีดจำกัดเดิม ๆ ตั้งแต่การใช้ DRAM ไปจนถึงการปรับแต่งการทำงาน การพัฒนาเฟิร์มแวร์เพื่อจัดการอาร์เรย์จัดเก็บข้อมูล และการให้ความสำคัญกับความสม่ำเสมอในการถ่ายโอนข้อมูลและความเร็วของค่าหน่วงเวลาแทนค่าสูงสุด เทคโนโลยีต่าง ๆ ของเราล้วนมีแนวคิดในการต่อยอดการพัฒนาจากซุปเปอร์คอมพิวเตอร์ทั้งสิ้น

และก็ยังมีอีกหลายสิ่งที่ผู้จัดการศูนย์ข้อมูลคลาวด์หรือแบบในพื้นที่สามารถเรียนรู้ได้จากซุปเปอร์คอมพิวเตอร์เกี่ยวกับการออกแบบและจัดการโครงสร้างพื้นฐานของตน รวมทั้งการเลือกส่วนประกอบที่ดีที่สุดเพื่อให้พร้อมสำหรับพัฒนาการในอนาคตโดยไม่ต้องมีการปรับเปลี่ยนขนานใหญ่

เซิร์ฟเวอร์ที่มีเส้นเรืองแสงเป็นภาพของเครือข่าย
1. ซุปเปอร์คอมพิวเตอร์คือพัฒนาการที่เน้นความสม่ำเสมอในการทำงานเป็นสำคัญ

ซุปเปอร์คอมพิวเตอร์แตกต่างจากแพลตฟอร์มประมวลผลบนคลาวน์ส่วนใหญ่ เช่น Amazon Web Services หรือ Microsoft Azure ที่พัฒนามาสำหรับการใช้งานที่หลากหลายเพื่อให้สามารถแชร์การใช้ทรัพยากรและโครงสร้างพื้นฐานต่าง ๆ ร่วมกันได้ ในขณะที่ซุปเปอร์คอมพิวเตอร์ส่วนใหญ่จะมีการพัฒนาขึ้นมาสำหรับการใช้งานเฉพาะด้าน รายชื่อใหม่ล่าสุดของซุปเปอร์คอมพิวเตอร์ที่ทำงานได้เร็วที่สุด 500 อันดับแรก (ที่มีการเปิดเผยให้ทราบโดยทั่วกัน) ไม่ได้ระบุแค่เพียงพื้นที่และความเร็วของส่วนการติดตั้ง แต่ยังรวมไปถึงส่วนการใช้งานหลักด้วย

เครื่องลำดับต้น ๆ สิบเอ็ดจากสิบสองเครื่องถูกนำมาใช้เพื่อการวิจัยด้านพลังงาน การทดสอบนิวเคลียร์และความมั่นคง มีเพียงตัวเดียวที่แตกต่างออกไปคือ Frontera ซึ่งเป็นระบบประมวลผลระดับเพทาสเกลใหม่ที่ได้รับการสนับสนุนจาก NSF ที่ Texas Advanced Computing Center จาก University of Texas โดยเป็นทรัพยากรด้านวิชาการสำหรับเครือข่ายงานวิจัยด้านวิทยาศาสตร์และวิศวกรรม
 สำหรับซุปเปอร์คอมพิวเตอร์ 20 ลำดับถัดไปในกลุ่ม 500 ลำดับแรก เกือบทุกตัวพัฒนาขึ้นมาสำหรับงานด้านความมั่นคงของรัฐและด้านข่าวกรอง เครื่องในลำดับที่ 30-50 ในกลุ่มนี้พัฒนาขึ้นมาสำหรับการพยากรณ์อากาศเป็นหลัก
 ส่วนเครื่องใน 50 ลำดับสุดท้ายจากทั้งหมด 100 เครื่องชั้นนำถูกนำไปใช้สำหรับการประมวลผลในองค์กรขนาดใหญ่ (NVIDIA, Facebook ฯลฯ) การพยากรณ์อากาศในระดับกลาง โครงการอวกาศ การสำรวจน้ำมันและก๊าซ ด้านวิชาการและเพื่อการใช้งานเฉพาะด้านของภาครัฐ

ซุปเปอร์คอมพิวเตอร์เหล่านี้ไม่ได้พัฒนาขึ้นมาสำหรับรองรับการใช้งานในทุก ๆ ด้าน และถูกพัฒนาขึ้นมาภายใต้ความร่วมมือกับผู้ผลิตต่าง ๆ เช่น Intel, Cray, HP, Toshiba และ IBM เพื่อรองรับการคำนวณกับชุดข้อมูลที่กำหนดไว้โดยเฉพาะ ไม่ว่าจะแบบเรียลไทม์หรือแบบอะซิงโครนัส

คอมพิวเตอร์เหล่านี้มีค่าหน่วงเวลาในระดับที่ยอมรับได้ตามที่กำหนดไว้:

  • ทรัพยากรในการประมวลผลที่กำหนดไว้เบื้องต้นจะทำงานประสานกับแกนประมวลผลนับล้านแกน
  • ทำให้ได้สัญญาณนาฬิการะหว่าง 18,000 - 200,000 teraFLOP

พื้นที่จัดเก็บข้อมูลของซุปเปอร์คอมพิวเตอร์เหล่านี้วัดเป็นเอกซาไบต์ ซึ่งมากกว่าเพทาไบต์ของคลังข้อมูลในยุคใหม่เป็นอย่างมาก

ระบบอย่าง Frontera ไม่ได้ต้องทำงานถึงจุดพีคในเวลาอันรวดเร็ว แต่สิ่งสำคัญคือจะต้องอ่านข้อมูลเป็นจำนวนมหาศาลได้อย่างสม่ำเสมอเพื่อให้ได้ผลลัพธ์ที่คาดหวัง การเร่งกำลังการประมวลผลไปจนถึงจุดสูงสุดอาจทำให้เกิดข้อผิดพลาดในการประมวลผลขึ้นได้ ดังนั้นสิ่งสำคัญที่สุดจึงเป็นความสม่ำเสมอในการทำงานมากกว่า

ผู้จัดการศูนย์ข้อมูลในปัจจุบันต้องเริ่มจากการถามคำถามว่า “เราต้องการทำอะไรกับระบบนี้” เพื่อเป็นแนวทางในการออกแบบ จัดการทรัพยากรและพัฒนาระบบที่ทำงานได้อย่างปลอดภัยและคาดการณ์ได้ การจัดการศูนย์ข้อมูลที่จัดการเครื่องเดสก์ทอปเสมือนจริงเป็นจำนวนมากมีความแตกต่างจากศูนย์รับเรื่อง 911 หรือระบบควบคุมการจราจรทางอากาศอย่างมาก คอมพิวเตอร์เหล่านี้มีความต้องการ อุปสงค์ ข้อตกลงระดับการให้บริการและงบประมาณที่แตกต่างกันซึ่งการออกแบบจะต้องเป็นไปอย่างสอดคล้องกับองค์ประกอบเหล่านี้

เช่นเดียวกัน ก็จะต้องมีการพิจารณาด้านประสิทธิภาพในการทำงานที่สม่ำเสมอแบบที่ไม่ต้องอาศัยการปรับแต่งเป็นพิเศษใด ๆ ด้วย ผู้ประกอบการมากมาย เช่น Amazon, Google และ Microsoft มีงบประมาณจัดไว้สำหรับสื่อบันทึกข้อมูลแบบพิเศษหรือโครงสร้างพื้นฐานในการประมวลผลของตนเอง แต่ผู้ให้บริการส่วนใหญ่มักต้องเลือกฮาร์ดแวร์จากที่มีจำหน่ายอยู่ทั่วไป

ดังนั้นผู้จัดการศูนย์ข้อมูลเป็นจำนวนมากจึงต้องกำหนดหลักเกณฑ์ที่เข้มงวดเพื่อเป็นเกณฑ์ชี้วัดเชิงประสิทธิภาพสำหรับ QoS และเพื่อให้แน่ใจว่าไม่ได้มีการให้ความสำคัญกับความเร็วในการประมวลผลและค่าหน่วงเวลาเพียงอย่างเดียว แต่ยังรวมไปถึงความสม่ำเสมอของประสิทธิภาพในการทำงานด้วย

เซิร์ฟเวอร์ที่มีเส้นเรืองแสงเป็นภาพของเครือข่าย
2. เรียลไทม์ของเราไม่เท่ากัน

ระหว่างการทำงานของซุปเปอร์คอมพิวเตอร์ ส่วนการประมวลผลข้อมูลแบบเรียลไทม์ส่วนใหญ่จะมีข้อบ่งชี้เฉพาะที่สำคัญ ไม่ว่าจะเป็นการสั่งหยุดการทำงานของปฏิกิริยานิวเคลียร์ไปจนถึงข้อมูลทางไกลที่ใช้เพื่อการปล่อยจรวด ค่าหน่วงเวลาในการประมวลผลจึงอาจส่งผลกระทบในการทำงานได้อย่างรุนแรงภายใต้ชุดข้อมูลที่มีขนาดใหญ่มาก สตรีมข้อมูลเหล่านี้ไม่ได้ป้อนมาจากแหล่งข้อมูลเพียงแหล่งเดียว แต่มักมาจากเครือข่ายโหนดแจ้งข้อมูลเป็นจำนวนมาก

และข้อมูลเหล่านี้มักมีการใช้งานเพียงระยะสั้น ๆ ขณะทำงานกับข้อมูลป้อนแบบเรียลไทม์ ข้อมูลส่วนใหญ่จะไม่ถูกพักเก็บไว้ถาวร แต่จะถูกเขียนและเขียนทับอีกทีโดยมีอายุใช้งานเพียงแค่จนถึงวงรอบการเขียนและเขียนทับข้อมูลครั้งใหม่ ข้อมูลแบบเรียลไทม์มักมีการเปลี่ยนแปลงอย่างต่อเนื่อง และมีส่วนการใช้งานไม่กี่อย่างเท่านั้นที่ต้องมีการจัดเก็บบิตข้อมูลทั้งหมดไว้ตั้งแต่เริ่มต้น ข้อมูลจะถูกประมวลผลเป็นชุด ๆ เพื่อจัดทำผลลัพธ์ที่ต้องการ (เช่น ค่าเฉลี่ย ตัวแบบทางสถิติหรืออัลกอริทึม) ผลลัพธ์คือชุดข้อมูลที่จะต้องถูกเก็บรักษาไว้

ยกตัวอย่างเช่นข้อมูลคาดการณ์ของซุปเปอร์คอมพิวเตอร์ขององค์การบริหารสมุทรศาสตร์และบรรยากาศแห่งชาติสหรัฐอเมริกา (NOAA) ตัวแปรด้านอุตุนิยมวิทยามีการเปลี่ยนแปลงอยู่ตลอดเวลา เช่น หยาดน้ำฟ้า อุณหภูมิอากาศและพื้นดิน ความดันบรรยากาศ เวลา แสงอาทิตย์ ลมและปัจจัยการเคลื่อนผ่านพื้นผิวต่าง ๆ ปัจจัยต่าง ๆ เหล่านี้มีการเปลี่ยนแปลงทุกวินาที และมีการแจ้งข้อมูลแบบเรียลไทม์ แต่ National Weather Service (NWS) ของ NOAA ไม่ได้ต้องการใช้ข้อมูลดิบตลอดไป ที่คุณต้องการคือตัวแบบในการพยากรณ์! การริเริ่มพัฒนาระบบพยากรณ์ระดับโลก (GFS) ทำให้ต้องมีการป้อนข้อมูลใหม่ ๆ เข้าไปในระบบเพื่อให้การคาดการณ์แม่นยำและมีข้อมูลล่าสุดอยู่เสมอ

นอกจากนี้นักอุตุนิยมวิทยาในท้องถิ่นที่แชร์และรับข้อมูลจาก NWS ก็ไม่จำเป็นต้องสืบค้นชุดข้อมูลสภาพอากาศทั่วทั้งโลกแต่อย่างใด แต่ต้องการเฉพาะตัวแบบการพยากรณ์ในพื้นที่ของตนเท่านั้น สิ่งนี้จะทำให้นักอุตุนิยมวิทยาสามารถต่อยอดข้อมูลจาก NWS โดยประสานกับสถานีพยากรณ์อากาศในพื้นที่เพื่อให้ข้อมูลเชิงลึกเกี่ยวกับภูมิอากาศเฉพาะจุด ทำให้การพยากรณ์อากาศในท้องถิ่นแม่นยำยิ่งขึ้นตามชุดข้อมูลซึ่งมีการประมวลผลเพื่อจัดทำชุดผลลัพธ์ (เช่น ค่าเฉลี่ย ตัวแบบทางสถิติหรืออัลกอริทึม) ข้อมูลผลการคำนวณนี่เองคือข้อมูลที่ผู้ใช้ต้องการจัดเก็บไว้

ซึ่งก็ไม่แตกต่างจากตัวแบบในการซื้อขายหุ้นหรือข้อมูลด้านการเงินซึ่งต้องมีการประมวลผลหาค่าเฉลี่ยเคลื่อนที่ซึ่งมีตัวบ่งชี้หรือค่าสั่งการภายในต่าง ๆ แบบเฉพาะตัว โดยพิจารณาจากพารามิเตอร์เฉพาะตามเกณฑ์กำหนดเชิงพฤติกรรมของตลาดที่ยอมรับได้ การออกแบบระบบที่ใช้ข้อมูลแบบ “เรียลไทม์” ไม่จำเป็นต้องเก็บข้อมูลที่ใช้ประมวลผลไว้ทั้งหมด แต่ควรใช้ประโยชน์จากหน่วยความจำสืบค้นสุ่มแบบไม่เลือนหาย (NVRAM) และหน่วยความจำสืบค้นสุ่มแบบไดนามิค (DRAM) เพื่อแคชและประมวลผลข้อมูลระหว่างนำส่ง จากนั้นจึงนำส่งผลลัพธ์ที่คำนวณได้ไปยังส่วนจัดเก็บข้อมูล

ภาพชิปหน่วยความจำแฟลชพร้อมเส้นทางสื่อสารในวงจรแบบเรืองแสง
3. เกณฑ์ค่าหน่วงเวลา แฟลช NAND และการปรับแต่ง DRAM

เกณฑ์ค่าหน่วงเวลาส่วนใหญ่จะถูกกำหนดไว้ตามความต้องการในการใช้งาน ในการซื้อขาย เวลาเพียงหนึ่งวินาทีอาจหมายถึงเงินนับล้านหรือนับพันล้าน ในการพยากรณ์อากาศและการติดตามพายุ สิ่งนี้อาจเป็นตัวชี้ขาดว่าจะสั่งอพยพประชาชนในนิวออร์ลีนส์หรือฮุสตัน

ซุปเปอร์คอมพิวเตอร์ทำงานโดยเน้นที่ระดับการให้บริการเป็นสำคัญ ซึ่งอาจครอบคลุมทั้งในส่วนของค่าหน่วงเวลา ทรัพยากรในการประมวลผล ส่วนการจัดเก็บข้อมูล หรือแบนด์วิธ โดยส่วนใหญ่แล้วจะมีการคำนึงถึงข้อผิดพลาดที่อาจเกิดขึ้นระหว่างประมวลผล โดยระบบจะสามารถเปลี่ยนเส้นทางข้อมูลเพื่อให้มีค่าหน่วงเวลาที่เหมาะสม (พิจารณาจาก 𝛱+Δmax clocking) การปรับมาเป็นการประมวลผลแบบอะซิงโครนัส หรือการปรับทรัพยากรในการประมวลผลเพื่อให้มีกำลังการประมวลผลหรือแบนด์วิธเพียงพอสำหรับงาน

ไม่ว่าคุณจะทำงานกับเวิร์คสเตชั่นระดับสูง, iron server หรือ HPC และงานด้านวิทยาศาสตร์ คอมพิวเตอร์ขนาดใหญ่และ Big Data เหล่านี้ล้วนต้องอาศัยทรัพยากร DRAM เป็นจำนวนมาก
 ซุปเปอร์คอมพิวเตอร์อย่าง Tianhe-2 ใช้ทรัพยากร RAM เป็นจำนวนมากร่วมกับการ์ดเร่งการประมวลผลแบบพิเศษ วิธีที่ซุปเปอร์คอมพิวเตอร์ทำการปรับแต่งฮาร์ดแวร์และกรอบการทำงานของชุดควบคุมจะแตกต่างกันไปตามรูปแบบการใช้งาน โดยส่วนใหญ่งานด้านการประมวลผลเฉพาะด้านจะมีการสืบค้นข้อมูลดิสก์เป็นสาเหตุสำคัญที่ทำให้เกิดปัญหาคอขวดกับ RAM การใช้ DRAM จึงอาจไม่เหมาะแต่ก็มีขนาดเล็กเพียงพอสำหรับการติดตั้งในแฟลช NAND คลัสเตอร์ FPGA ยังมีการปรับแต่งเพิ่มเติมสำหรับการทำงานเฉพาะด้านเพื่อให้แน่ใจว่าชุดข้อมูลขนาดใหญ่จะสามารถถูกสืบค้นได้อย่างเต็มประสิทธิภาพหากต้องใช้สื่อบันทึกข้อมูลแบบเก่าเพื่อเรียกค้นข้อมูล

ทีมงานมีการประสานความร่วมมือกันระหว่าง University of Utah, Lawrence Berkeley Lab, University of Southern California และ Argonne National Lab เพื่อพัฒนาตัวแบบ Automatic Performance Tuning (หรือ Auto-tuning) แบบใหม่ที่สามารถรองรับการเคลื่อนย้ายระหว่างสถาปัตยกรรมการทำงานคนละชุดได้อย่างเต็มประสิทธิภาพ แทนที่จะพึ่งพาคอมไพเลอร์ที่จะทำงานได้อย่างมีประสิทธิภาพสูงเมื่อใช้สถาปัตยกรรมหลายแกนประมวลผลรุ่นใหม่ ๆ แต่ kernel และแอพพลิเคชั่นที่มีการปรับแต่งอัตโนมัติจะสามารถปรับการทำงานอัตโนมัติได้ใน CPU เป้าหมาย ระบบเครือข่าย และตัวแบบการตั้งโปรแกรมการทำงาน

ภาพพนักงานฝ่าย IT กำลังสวมหมวกนิรภัย โดยโน้ตบุ๊กตั้งอยู่ด้านหน้าของจอแสดงผลแบบโปร่งใส
4. ระบบป้องกันข้อผิดพลาดหลายชั้น

การจัดสรรพลังงานในศูนย์ข้อมูล HPC มีความท้าทายมากขึ้นเรื่อย ๆ โดยเฉพาะกับโครงสร้างพื้นฐานที่จัดไว้เพื่อรองรับการแชร์ทรัพยากรระบบร่วมกัน ไม่ว่าจะเป็นโครงสร้างพื้นฐานในการทำงานแยกเฉพาะหรือแบบจัดสรรเป็น as-a-service ศูนย์ข้อมูลล้วนต้องแน่ใจว่าการทำงานจะเป็นไปอย่างต่อเนื่อง และจะต้องสามารถลดความเสี่ยงต่อการสร้างความเสียหายให้แก่ส่วนประกอบฮาร์ดแวร์ที่บอบบางในกรณีที่ไฟฟ้าดับ กระแสพุ่งสูงหรือมีการเปลี่ยนแปลงของช่วงพีคในการทำงานเกิดขึ้น

นักออกแบบจะเลือกใช้หม้อแปลงแบบกระจายความสูญเสียหลาย ๆ ตัวเข้าด้วยกัน:

  • การจ่ายไฟฟ้า DC และระบบสำรองไฟฟ้า UPS
  • ระบบผลิตพลังงานไฟฟ้า ความร้อนและความเย็น (การผลิตกระแสไฟฟ้าผ่านความร้อนเพื่อจัดเก็บไว้ในระบบสำรองไฟฟ้า)
  • ระบบตรวจติดตามในเชิงรุก
“บันทึกข้อมูลให้บ่อยครั้ง” คือหลักการสำคัญสำหรับทุกส่วนการใช้งาน โดยเฉพาะสำหรับศูนย์ข้อมูลที่ “ระบบสำรองไฟ” เป็นสิ่งจำเป็น

ศูนย์ข้อมูลส่วนใหญ่ในปัจจุบันทำงานโดยใช้โครงสร้าง RAID ระดับสูงเพื่อให้แน่ใจว่าการเขียนข้อมูลเกือบพร้อมกันจะสามารถทำได้อย่างต่อเนื่องกับอาร์เรย์จัดเก็บข้อมูลต่าง ๆ นอกจากนี้ โครงสร้างพื้นฐานสำหรับ HPC ยังต้องอาศัย NVRAM เป็นจำนวนมากเพื่อแคชข้อมูลในกระบวนการ ซึ่งอาจเป็นไลฟ์สตรีมของข้อมูลที่ไม่ได้ดึงข้อมูลจากอาร์เรย์จัดเก็บแยกกัน หรือการประมวลผลข้อมูลแบบคู่ขนานที่ทำให้ต้องมีการจัดทำ scratch disk เพื่อให้ทรัพยากรในการประมวลผลมีพื้นที่เพิ่มเติม ระบบ Frontera ที่กล่าวไปก่อนหน้านี้เองก็ใช้ scratch disk ความจุถึง 50PB ผู้ใช้ที่ต้องการแบนด์วิธหรือ IOPS สูงมาก ๆ จะสามารถแจ้งขอให้มีการจัดสรรทรัพยากรผ่านระบบไฟล์ all-NVMe (non-volatile memory express) ที่มีความจุโดยประมาณที่ 3PB และแบนด์วิธที่ ~1.2TB/วินาที

ส่วนการจัดเก็บข้อมูล RAID สำรองแบบต่อเนื่อง และระบบแคชบัฟเฟอร์ NVMe ที่ทำงานได้อย่างสม่ำเสมอจะขึ้นอยู่กับขีดความสามารถด้าน I/O โดยรวมสำหรับชุดควบคุมของอุปกรณ์ และแบนด์วิธที่พร้อมใช้งานหรือที่มีการจัดสรรสำหรับส่วนการจัดเก็บ/สำรองข้อมูลระยะไกล

โครงสร้างพื้นฐานส่วนใหญ่ของ HPC จะเน้นที่การขจัดโอกาสในการเกิดข้อผิดพลาดจากฮาร์ดแวร์เนื่องจากไดร์ฟแบบจานหมุนโดยการปรับเปลี่ยนมาใช้อาร์เรย์ Solid State และบล็อคจัดเก็บข้อมูลแบบแฟลชทั้งหมด ระบบจัดเก็บข้อมูลเหล่านี้มีระดับ IOPS ที่คงที่และค่าหน่วงเวลาที่คาดการณ์ได้ภายในเกณฑ์ค่าหน่วงเวลาที่กำหนดไว้เฉพาะสำหรับส่วนการใช้งาน ซุปเปอร์คอมพิวเตอร์หลายตัวยังมีการใช้ไลบรารี่เทปบันทึกหลาย ๆ ชุด (สามารถปรับขนาดความจุได้ในระดับเอกซาไบต์หรือมากกว่า) เพื่อให้สามารถจัดเก็บข้อมูลได้อย่างมีเสถียรภาพสำหรับทุกบิตข้อมูลที่มีการประมวลผลและจัดเก็บ

และในบางกรณีถึงขนาดที่มีการเตรียมการป้องกันล่วงหน้าเผื่อในกรณีที่ส่วนประกอบอื่น ๆ ล้มเหลว เช่น ตัวเก็บประจุสำหรับกรณีไฟดับ (Pfail) โดยจะมีการกำกับไว้เป็นระบบป้องกันไฟฟ้าดับ (PLP) ซึ่งติดตั้งไว้สำหรับ SSD และ DRAM P-Caps ช่วยให้ไดร์ฟต่าง ๆ (ทั้งแบบแยกเดี่ยวหรือรวมกันในกลุ่มอาร์เรย์) สามารถรองรับการเขียนข้อมูลตามจริง ซึ่งช่วยลดโอกาสที่ข้อมูลจะสูญหายหากเกิดสถานการณ์ไฟฟ้าดับขึ้น

สรุป

การปรับแต่งคือสิ่งที่สำคัญสำหรับซุปเปอร์คอมพิวเตอร์ แต่การรู้จักความต้องการของตนเองคือขั้นตอนแรกของการจัดทำศูนย์ข้อมูลและการพัฒนาประสิทธิภาพการทำงานให้ออกมาสม่ำเสมอมากที่สุด ไม่ว่าศูนย์ข้อมูลจะมีขนาดเท่าใด แต่ขอให้ตระหนักถึงความสำคัญของการทำงานหรือในฐานะซุปเปอร์คอมพิวเตอร์ที่ทำหน้าที่จัดทำ จัดเก็บหรือแชร์ข้อมูล การประเมินปัจจัยต่าง ๆ เหล่านี้จะทำให้นักออกแบบสามารถออกแบบโครงสร้างพื้นฐานเพื่อรองรับการทำงานในระดับสูงที่พร้อมสำหรับเทคโนโลยีในอนาคต แม้ว่าจะใช้ส่วนประกอบที่มีจำหน่ายทั่วไปก็ตาม

#KingstonIsWithYou

บทความที่เกี่ยวข้อง