Servers in a data center

Veri Merkezi Yöneticilerinin En Hızlı Süper Bilgisayarlardan Öğrenebileceği 4 Husus

Sokakta herhangi bir kişiye, süper bilgisayarların ne olduğuyla ilgili fikrini sorsaydınız yanıt olarak büyük olasılıkla popüler filmlerden, genellikle de kötü şöhrete sahip alıntı örnekler duyardınız. HAL 9000’den (2001: A Space Odyssey) iRobot’un VIKI’sine, hatta Terminator filmindeki Skynet’e kadar popüler kültür genellikle süper bilgisayarları, zamanla evrim geçirerek insanlığa karşı çalışan, sezgisel sistemler olarak göstermektedir.

Bunu Lawrence Livermore Ulusal Laboratuvarı Ulusal Meteoroloji Servisi’ndeki araştırmacılara söylerseniz, size kahkahalarla gülerler. Gerçekte günümüzün süper bilgisayarları kendi farkına varmaktan çok uzaktırlar ve mevcut tek Yapay Zeka, çok büyük veri setlerini tarayan güçlü bir arama çubuğudur.

Günümüzde süper bilgisayarlar, ilerlemenin ön saflarında yer alan çok sayıdaki uygulamaya güç vermektedir: Bunlar arasında petrol ve gaz aramalarından hava durumu tahminlerine, finansal piyasalardan yeni teknolojilerin geliştirilmesine kadar birçok örnek sayılabilir. Süper bilgisayarlar, bilgisayar dünyasının Lamborghini ya da Bugatti’sidir. Kingston olarak bilgisayar sistemlerinin sınırlarını zorlayan gelişmelere çok dikkat ediyoruz. DRAM kullanımı ve ayarlamadan veri depolama dizelerinin yönetiminde donanım yazılımına (bellenim sürümü), hatta uç değerler yerine transfer ve gecikme hızlarının tutarlılığına gösterilen öneme kadar teknolojilerimiz, süper bilgisayarların gelişen yanından önemli ölçüde etkilenmektedir.

Benzer şekilde bulut ve tesis içi veri merkezi yöneticilerinin, altyapılarının tasarlama, yönetme ve aynı zamanda büyük revizyonlara ihtiyaç duymadan gelecekteki ilerlemelere hazır olacak bileşenlerin en iyi nasıl seçilebileceğiyle ilgili süper bilgisayarlardan öğrenebileceği birçok konu bulunmaktadır.

bir ağı temsil eden ışıklı çizgilerin yer aldığı sunucu
1. Süper Bilgisayarlar Tutarlılık için Özel Olarak Üretilir

Paylaşımlı kaynakları ve altyapıları kullanan çeşitli uygulamalara hizmet vermek için tasarlanmış Amazon Web Services ya da Microsoft Azure gibi çoğu Bulut Bilişim (Cloud Computing) platformlarını aksine çoğu süper bilgisayar belirli gereksinimler için özel olarak üretilir. Dünyanın en hızlı 500 süper bilgisayarını (genel olarak bilinen ve gizli olmayan) gösteren TOP500 listesi, kurulumların yeri ve hızının yanı sıra ana uygulama alanlarını da göstermektedir.

En iyi on iki makinenin on bir tanesi, enerji araştırmaları, nükleer testler ve savunma uygulamalarında kullanılmaktadır. Bunlar arasında, bilim ve mühendislik araştırmaları iş ortakları için akademik kaynaklar sağlayan Teksas Üniversitesi Texas Advanced Computing Center’da yer alan, NSF tarafından fonlanan yeni peta-ölçekli bilişim sistemi diğerlerinden farklıdır. TOP500 listesinin sonraki 20 süper bilgisayarın neredeyse hepsi Devlet savunma ve istihbarat uygulamaları için kullanılmaktadır. Listede 30 ile 50 arası sıralamaya sahip makineler daha çok hava durumu tahminleri için hizmet vermektedir. En iyi 100 bilgisayarın son 50 tanesi, kurumsal bilişim (NVIDIA, Facebook, vb.), orta aralık hava durumu tahminleri, uzay programları, petrol ve gaz arama, akademik ve özel devlet amaçlı kullanımlar gibi karışık bir görünüm sergilemektedir.

Bu makineler, her amaca uygun tek boy tasarımda değildir. Intel, Cray, HP, Toshiba ve IBM gibi üreticiler tarafından, çok belirli veri setleri üzerinde gerçek zamanlı ya da asenkron halde belirli hesaplama türlerini gerçekleştirmek için özel olarak tasarlanmıştır.

Tanımlı kabul edilebilir gecikme eşiklerine sahiptirler:

  • Önceden belirlenmiş bilişim kaynakları, milyonlarca işlem çekirdeğini kullanmaktadır
  • 18.000 ve 200.000 teraFLOPS arası saat hızları sunmaktadır.

Veri saklama kapasiteleri, modern veri depolarının petabayt düzeyindeki alanlarının çok ötesinde, eksabayt mertebesinde ölçülmektedir.

Frontera gibi sistemler sadece uç işlem yükünde depara kalkmak zorunda olmak yerine sonuçta gelen çok büyük miktarda veriyi tutarlı biçimde okumak zorundadır. İşlem performansındaki ani bir artış, aslında sonuçlarda hataya neden olabilir. Dolayısıyla önem verilmesi gereken konu tutarlılıktır.

Günümüzün veri merkezi yöneticilerinin sistemleri tasarlamak, kaynakları yönetmek ve kestirilebilir hata korumaları oluşturmak için öncelikle kendilerine “Sistemle neler yapıyoruz?” sorusunu sormaları gerekmektedir. Birkaç sanal masaüstünün çalıştığı bir veri merkezinin yönetilmesi, bir 911 çağrı merkezini ya da hava trafiği kontrol sistemlerinin çalıştırmaktan çok farklıdır. Hepsi farklı gereksinimlere, taleplere, hizmet seviyesi anlaşmalarına ve bütçelere sahiptir. Dolayısıyla bunlar dikkate alınarak tasarlanmaları gerekir.

Benzer şekilde özel yapımlara ihtiyaç duymadan tutarlı performansın nasıl sağlanacağı da dikkate alınmalıdır. Amazon, Google ve Microsoft gibi şirketler, özel veri depolama ve hesaplama altyapıları oluşturacak bütçelere sahiptir. Ancak hizmet sağlayıcıların birçoğunun kullanıma hazır donanımlar konusunda daha seçici olmaları gerekmektedir.

Dolayısıyla, giderek daha fazla veri merkezi yöneticisinin QoS ele alan performans kıyaslamaları için katı ölçütler belirlemesi ve en yüksek önemi yalnızca işlem hızı ve gecikmeye değil, aynı zamanda tutarlılığa da vermesi gerekmektedir.

bir ağı temsil eden ışıklı çizgilerin yer aldığı sunucu
2. Senin Gerçek Zamanın Benim Gerçek Zamanım Değil

Süper bilgisayar uygulamaları ile gerçek zamanlı verilerin çoğu kısmı, önemli sonuçlara sahiptir. Bir nükleer reaksiyonu durdurmaktan bir roketin fırlatılması için telemetri verilerine kadar işlem gecikmesi, yıkıcı etkilere neden olabilir ve veri setleri devasa boyutlardadır. Bu akışlar, sadece tek kaynaktan gelmemekte, daha çok bir bildirim düğümleri ağından alınmaktadır.

Ancak verilerin ömrü kısadır. Gerçek zamanlı beslemelerle çalışırken verilerin çoğu sonsuza kadar elde tutulmaz. Bir veri yazıldıktan sonra, sıralı yazma ve üzerine yazmalar için belirlenmiş süre sonunda üzerine yeni veriler yazılır. Gerçek zamanlı veriler sürekli değişirler ve sadece çok az sayıda uygulama, her bitin en başından itibaren saklanmasını gerektirir. Veriler gruplar halinde işlenir, bir sonuç (ortalama, istatistiki model ya da algoritma olabilir) elde edilecek şekilde işleme tabi tutulur ve bu sonuç saklanır.

Örnek olarak Ulusal Oşinografik ve Atmosferik İadresi’nin (National Oceanographic and Atmospheric Administration - NOAA) süper bilgisayar tahminlerini ele alın. Yağış, hava ve yer sıcaklığı, barometrik basınç, günün saati, güneş etkileri, rüzgar ve hatta bunun arazi üzerinden nasıl geçtiği gibi meteorolojik faktörlerde sürekli değişimler olur. Bu her saniye değişir ve gerçek zamanlı bir bilgi akışı şeklinde raporlanır. Ancak NOAA’ın Ulusal Hava Durumu Hizmeti (National Weather Service - NWS) ham verilere sonsuza kadar ihtiyaç duymaz. Tahmin modellerine ihtiyacınız vardır! Küresel tahmin sistemi (GFS - global forcasting system) modeli şekillendikçe modele yeni veriler girer. Sonuçta daha doğru ve yeni tahminler oluşur.

Bunun da ötesinde NWS’den veri paylaşan ve alan yerel meteoroloji uzmanlarının, tüm genel hava durumu veri setine erişmeleri gerekmez. Modellerini sadece yerel bölge ile sınırlandırırlar. Bu, NWS verilerini yerel hava durumu istasyonları ile tamamlamasını, dolayısıyla mikro-klimalarla ilgili detaylı bilgi sağlamasına ve saklanacak bir sonuç oluşturmak için hesaplanan (ortalama, istatistiki model ya da algoritma olabilir) gruplar oluşturarak daha doğru yerel tahminlere ulaşmayı hızlandırmasına olanak tanır.

Aynı şeyler her biri kabul edilebilir piyasa davranışı tetikleri için belirli parametrelere dayanan, belirli göstergelere ve dahili işlem tetiklerine sahip hareketli ortalamalarla işleyen hisse senedi işlemleri ya da finansal modeller için de söylenebilir. “Gerçek zamanlı” verileri kullanmak için tasarlanan bir sistemin gelen tüm verileri saklaması gerekmez. Bunun yerine gelen verileri önbelleğe almak ve işlemek, ardından hesaplanan çıktıyı veri saklamaya sunmak için kalıcı rastgele erişimli bellek (NVRAM) ve dinamik rastgele erişimli bellekten (DRAM) yararlanması gerekir.

ışıldayan devre izlerine sahip flash bellek yongası resmi
3. Gecikme Eşikleri, NAND Flash ve Ayarlanabilir DRAM

Çoğu gecikme eşiği, uygulamanın gereksinimleri nedeniyle belirlenir. Ticari işlemlerde saniyeler, milyonlarca, hatta milyarlarca dolara mal olabilir. Hava durumu tahminleri ya da hortum izleme durumlarında New Orleans ya da Houston’ı tahliye etmek arasında karar vermek anlamına gelebilir.

Süper bilgisayarlar, gecikme, işlem kaynakları, veri saklama ve bant genişliği gibi bir öncül hizmet seviyesi zorunluğu ile çalışırlar. Çoğunda hatanın fark edildiği bir hesaplama sistemi kullanılır. Bu sistem, veri akışlarını en iyi gecikme koşulları (𝛱+Δmax saatine göre) için yeniden yönlendirebilir. Bunun için asenkron hesaplama modellerine geçiş yapılmasını ya da işler için yeterli işlem gücü ya da bant genişliği sunmak için hesaplama kaynaklarının önceliklendirilmesini sağlar.

İster gelişmiş iş istasyonlarıyla, fiziksel sunucularla, isterse HPC ve bilimsel iş yükleriyle çalışıyor olun, büyük bilgisayarlar ve Büyük Veriler (Big Data) büyük DRAM kapasiteleri gerektirir. Tianhe-2 gibi süper bilgisayarlar dev RAM kapasiteleri ile birlikte özelleştirilmiş hızlandırma kartları kullanırlar. Süper bilgisayar sistemlerinin donanım ve kontrolör yapısını hassas biçimde ayarlama şekilleri, uygulama tasarımı için benzersizdir. Disk erişiminin RAM gereksinimleri ile büyük bir darboğaz oluşturduğu belirli hesaplama görevleri, DRAM’in kullanımını uygulanamaz hale getirir ancak bir NAND Flash takılabilecek kadar küçüktür. FPGA kümeleri, verilerin alınması için geleneksel yöntemleri kullanmaları gerektiğinde büyük veri setlerinin müthiş performans değerlerine ulaşması için her ilgili iş yüküne göre daha da ileri düzeyde ayarlanır.

Utah Üniversitesi, Lawrence Berkeley Laboratuvarı, Güney Kaliforniya Üniversitesi ve Argonne Ulusal Laboratuvarı’ndan işbirliği yapan ekipler, mimariler arasında performansın taşınabilirliğini sağlamak için etkili bir yöntem olarak Otomatik Performans Ayarlaması (ya da Otomatik Ayarlama) için yeni modeller ortaya koydular. Otomatik ayarlanan çekirdekler ve uygulamalar, daha yeni çok çekirdekli mimarilerde en iyi performansı sağlayabilecek bir derleyiciye bağlı olmak yerine hedef CPU, ağ ve programlama modelini otomatik ayarlayabilirler.

bir ekranın önünde dizüstü bilgisayarla çalışan kasklı IT çalışanı resmi
4. Çok Katmanlı Hata Korumaları

HPC veri merkezi içindeki enerji dağıtımı, özellikle paylaşımlı kaynaklar olarak kullanılan altyapılarda giderek daha zorlu hale gelmektedir. Özel ya da hizmet olarak sağlanan altyapılarda veri merkezlerinin, elektrik kesintisi, ani yükselmeler ya da uç talepteki değişiklikler durumunda kesintisiz çalışmayı sağlamaları ve kırılgan donanım bileşenlerinin zarar görmesi riskini azaltmaları gerekmektedir.

Mimarlar, çeşitli kesinti-dağıtım transformatörlerini bir arada kullanırlar:

  • DC güç dağıtımı ve UPS yedekler,
  • Trijenerasyon (yedekte saklamak için ısıdan elektrik üretme)
  • Aktif izleme
“Kaydet ve sık kaydet”, her türlü uygulama için bir mantradır. Aynısı “yedeğin” işlevsel bir terim olduğu veri merkezleri için de geçerlidir.

Günümüzde çoğu veri merkezi, veri saklama dizileri arasında sürekli ve neredeyse eş zamanlı yazmayı saklamak için yüksek seviye RAID yapılarıyla çalışırlar. Ayrıca HPC altyapılarında, veri saklama dizilerinden çekilmeyen canlı veri akışları ya da ek işlem kaynaklarını serbest bırakmak için bir boş “diskimsi” kullanım oluşturan paralel işlenen bilgi olan işlemdeki verileri ön belleğe almak için yüksek miktarlarda NVRAM kullanılır. Daha önce belirtilen Frontera sistemi, 50PB toplam boş kapasite kullanmaktadır. Çok yüksek bant genişliği ya da IOPS gereksinimlerine sahip kullanıcılar, tamamen NVMe (non-volatile memory express) olan bir dosya sisteminde, yaklaşık 3PB kapasite ve ~1,2TB/s. bant genişliğine sahip bir ayırma talep edebilecektir.

Bu veri saklama için sürekli RAID yedeklemesi ve NVMe tamponlarının tutarlı biçimde önbelleğe alınması, cihaz üzerindeki kontrolörlerin I/O eşiğine ve uzak veri saklama/yedekleme için toplam mevcut ya da sağlanan bant genişliğine bağımlıdır.

Aynı zamanda çoğu HPC altyapıları tamamen katı kal dizilerine ve flash veri saklama bloklarına geçerek dönen sürücülerdeki donanım arızası olasılığını tamamen ortadan kaldırmaktadır. Bu veri saklama çözümleri tutarlı IOPS sağlamaktadır ve uygulama özel gecikme eşikleri dahilinde olan tahmin edilebilir gecikmelere sahiptirler. Birçok süper bilgisayarda, işlenen ve saklanan her bit için güvenilir bir veri arşivine sahip olmak için birden fazla teyp kütüphanesi (eksabayt ya da fazlasına ölçeklenebilir kapasiteli) de kullanılmaktadır.

Aynı zamanda bunların birçoğu, zincirde başka herhangi bir hata oluşması durumunda, SSD’ler ve DRAM’lere elektrik kesintisi koruması (PLP) olarak da etiketlenen elektrik kesintisi (PFail) kapasitörleri (P-Cap) bulunduğundan emin olmaktadır. P-Cap’ler sürücülerin (bağımsız ya da bir dizide bulunan) devam etmekte olan yazma işlemlerini tamamlamasını sağlamakta ve önemli bir arıza durumunda kaybolabilecek veri miktarını azaltmaktadır.

Sonuç

Bir kez daha belirtmek gerekirse süper bilgisayar dünyasında “özel tasarım” anahtar ifadedir. Ancak bir veri merkezi kurarken gereksinimlerinizi ve en tutarlı performansa nasıl ulaşacağınızı bilmek için ilk adımdır. Veri merkezinin boyutu ne olursa olsun, veri oluşturma, saklama ya da paylaşma konularında süper bilgisayarlar için bunun önemli olarak kabul edilmesi gerekmektedir. Mimarlar, bu faktörleri değerlendirerek kullanıma hazır donanımlarla bile gelecekteki ilerlemeler için hazır yüksek performanslı altyapılar tasarlayabilirler.

#KingstonIsWithYou

İlgili Yazılar