Slurm Workload Manager
Slurm, büyük veya küçük ayırmaksızın Linux Clusterlar için açık kaynak kodlu, hataya dayanıklı ve yüksek ölçeklenebilir cluster yönetimi ve iş planlama sistemidir. Slurm, çalışması için çekirdek değişiklikler yapmayı gerektirmemesinden dolayı yazılım uyumsuzulukları sorunları oluşturmaz. Slurm iş yükü planlıyıcısı olarak üç temel fonksiyona sahiptir.
1. Kullanıcılara işleri yapabilmeleri için belirli bir süre özel ve / veya özel olmayan erişim kaynaklarına (hesaplama nodelarına) erişim sağlamak,
2. Kullanıcılara iş yapmaları için tahsis edilen nodelar üzerinde işi başlatmak, yürütmek ve izlemek
3. Hesaplama kaynakları üzerinde bekleyen bir iş kuyruğunu yönetir.
İsteğe bağlı olarak slurm üzerinde bazı eklentiler kullanılabilir. Bunlar;
• Muhasebe
• Gelişmiş kaynak rezervasyonu
• Paralel işler için zaman paylaşımı
• Dolgu planlaması, topoloji ile optimize edilmiş kaynak seçimi, kullanıcı veya banka hesabına göre kaynak sınırları ve karmaşık çok faktörlü iş önceliği algoritmaları için kullanılabilir.
• Topoloji ile optimize edilmiş kaynak seçimi,
• Kullanıcı veya hesaba göre kaynak sınırları,
• Özel faktörlü iş önceliklendirme algoritmaları.
Mimari
Slurm’un kaynakları ve çalışmaları izlemek için merkezi bir yöneticisi vardır. Mimarinize göre arıza durumunda bu sorumlulukları üstlenmek için bir yedekleme yöneticisi de yapılandırabilirsiniz. Bu şekilde cluster üzerinde kesintiye uğramadan işleriniz çalışmaya devam edecektir. Her bir hesaplama sunucususu, bir uzak shell ile karşılaştırılabilen işi beklten, yürüten, durumu değiştiren ve daha fazla iş bekleten bir slurmd daemonuna sahiptir. Slurmd istemcileri, hataya dayanıklı hiyerarşik iletişim sağlar. Tek bir veritabanında birden fazla Slurm tarafından yönetilen küme için kullanım ve kullanıcı istatistiklerini kaydetmek için kullanılabilen isteğe bağlı bir slurmdbd (Slurm Veri Tabanı Daemonu) vardır. Kullanıcılar için ise 5 komut setinden oluşan kullanımı vardır.
• srun : İşleri başlatır
• scancel : Sıraya alınan veya çalışan işleri sonlandırır
• sinfo : Sistem durumunu bildirir
• squeue : İşlerin durumunhu rapor eder
• saact : Çalışan veya tamamlanmış olan işler ve iş adımları hakkında bilgi verir.
• Smap / sview: Ağ topolojisi de dahil olmak üzere sistem ve iş durumunu grafik olarak raporlar
• scontrol : Clusterdaki yapılandırma ve durum bilgilerini izlemek ve / veya değiştirmek için Admin tarafından kullanılır.
• Saactmgr : Veritabanını yönetmek için Admin tarafından kullanılır.