有限计算 无限可能
客服电话:(86)-21-8016 6080
计算集群建设
高性能计算集群
高性能计算集群建设内容
高性能计算集群不仅仅是硬件、软件、存储、网络和许可证资源等的堆砌,它还需要匹配▆部署合适多种资源的统一协调调度服务、软硬件资源与业务系█统的集成服务、方便管理人员管控集群的管理监控系统以及适合研发人员使用的平台服务系统。
集群建设需要精通各类产品的参数和性能特点,以专业标准制定满足需求的集群配╲置方案;同时还需要掌握和了解具体的应用特点和业务场景,以确保在设备选型阶段控制风险。上海超算科技基于本公司高性能计算业※务的积累,上海超算中心逾17年集群建设运维经验,各行业计算分中心的建设以及〓相关领域合作伙伴的紧密协作,在集群建设方面具有︼得天独厚的优势。
高性能计算集群建设包括:1)调度集成;2)集群监控;3)集群维护;4)平台管理。
1 调度集成
l 主要用于完成集群中计算任务的收集与分配工作,并对集群内的资源使用情况进行监控管理。
l 需要对集群内所有可用资源和服务进行调度管理优化。
l 并提供相关的分配策略以满足企业计算作业需要。
上海超算科技根据技术能力和以往经验,提供调度系统与软硬件的集成〖配置、许可证管理配◆置、作业调度策略、集群性能优化等方面服务。
2 集群监控
l 提供整个集群的运行状态监控,包括集群负载◎、节点硬件信息、GPU监控等。
l 对集群的服务●器、网络、存储设备、本冷机柜等资源监控等;
基于上海超算中心多年高性能计算机维护管理经验,上海超算科技采用B/S架构,基于JAVA语言和web技术开发出可跨平台使用的集群监控服务系★统。通过系统,用户无需★安装任何软件即可访问集群基础信息和各类业务信息。
3 集群维护
高性能集群已成为大型研发设计机构所需的主要计算资源,一定程度上已成为设计研发进度和日常工作的重要保障。上海超算科技基于十余年高性能计算业务积累拥有专业的技术团队,为您的高性能集群提供包含ξ调度、存储、网络等复杂系统维护与保障服务。
l 高性能集群系统的检查与维护;
l 集群调度系统的维护与保障;
l 集群存储系统的维护与保障。
4 平台管理
l 对操作系统并发管理
l 整合其他设备管理软件