超算管理平臺采用先進的技術架構,將集群計算節點資源劃分到HPC和AI兩個分區,兩個分區資源區別對待,統一納管,做到了兩個分區的計算資源既相互獨立又相互融合。兩個分區的計算節點可以實現一鍵分區間相互遷移,靈活調配,滿足用戶在不同時段對AI和HPC業務資源的不同需求。為用戶提供了一套既能保證HPC作業性能無損,又能兼顧HPC和AI操作習慣的集群管理平臺。
超算管理平臺的管理模塊和登錄模塊基于CloudOS云平臺運行,共享頭節點的硬件資源。頭節點不再被人為區分為管理節點和登錄節點,做到了硬件資源的拉通使用,提高了資源的利用率,在相同的資源條件下提供了更加穩定地冗余備份。云平臺可以根據管理模塊和登錄模塊的負載情況動態調節兩個模塊所占用的資源,具有極高的可靠性和可擴展性。云平臺實時監控管理模塊和登錄模塊的運行狀態,發生故障時系統可以在秒量級內完成故障的發現和業務的恢復。
超算管理平臺管理員和普通用戶的操作均可在Web上完成,管理員通過Web、WebSSH進行集群部署、集群監控等管理工作,普通用戶可以通過Web、WebSSH和noVNC提交作業、查看作業結果、上傳和下載文件、創建和編輯應用模板。
管理員可以在計算節點上同時安裝環境層同一軟件的不同版本,通過模塊管理實現對軟件版本的管理。用戶可以通過運行環境選擇模塊管理中的軟件版本,為自己的應用構建運行環境。運行環境可以保存、編輯和分享。