集群管理軟件(TINGATE SUPER-CLUSTER)
一、簡介
l 作業調度系統滿足異構計算網絡,用于靈活的批處理,特別是滿足高性能計算的需要,如集群系統、超級計算機和大規模并行系統。
l 支持批處理、交互式作業和串行、多種并行作業,如MPI、PVM、HPF、MPL;
l 支持最廣泛的本地集群調度器,自動實現作業調度運行,不需第三方調度器,提交任務則會形成任務隊列,依次執行,有效分配資源,避免資源競爭;
l 支持創建管理員賬戶和若干普通用戶賬戶,賬戶權限設定,提交多個作業時,支持作業狀態監控,排隊,優先,刪除等管理功能;
l 完全兼容PBS腳本提交運行;
l 可擴展UI界面
二、核心功能
統一管理界面
TSC可提供基于Web的集群管理圖形用戶界面和集群管理WebShell。提供單系統視圖,通過“單窗格”管理集群所有內容,管理功能操作簡單,所有任務通過直觀的可視化界面執行。WebShell通過命令行接口提供與LINUX終端界面的功能,通過WebShell可在交互模式和批處理模式間切換使用。
快速環境部署
TSC允許用戶在裸機上部署完整集群,幾分鐘即可部署完成,并有效管理它們,支持Linux、Red Hat、CentOS等發行版,具備HPC工作負載管理器、Kubernetes、Spark和深度學習庫等組件。
任務調度管理器
TSC內置集成PBS調度器,可以擴容第三方任務調度器,例如SLURM 、PBS Professional,Univa Grid Engine,Moad,LSF、OpenLava、Open Grid Scheduler、Maui等多種任務調度器,可實時監控節點的健康狀態,視圖界面及用戶訪問入口為任務調度管理器提供一個友好的用戶接口,配置了可靠的任務調度管理器故障轉移,可將用戶數據識別并將任務調度至云端。
機器學習庫和框架
內置多種主流的機器學習庫和框架,例如NVIDIA CuDNN,TensorFlow, CUDA,TensorRT,Dynet,Fastai,JupyterHub,NCCL2,MXNet,PyTorch,Chainer,CNTK,Horovod,Keras,CUB,OpenCV3,Protobuf3,Torch, Theano和XGBoost。
全面GPU管理
從根本上減少了管理GPU所需的時間和精力,并將GPU設備完全集成到整個系統的視圖中,擁有完備的GPU管理和監控能力,可直接與NVIDIA的集成,用戶可輕松取得GPU的較大控制權,并獲得及時和基于時間的狀態監測。同時通過多種方式輕松啟用NVIDIA 深度學習容器,且增加監控功能,隨時查看GPU使用情況。
三、WEB界面