Product Introduction
云智高性能计算一体化平台专为百亿亿次级别计算而设计,专注于速度、规模和弹性。使得HPC在航空航天、国防、汽车、学术、能源、电子设计自动化、气象等行业变得简单易用。
云智HPC通过功能强大的基于策略的作业调度,用于作业提交和远程可视化的用户友好门户以及深度分析和报告简化HPC资源管理。由此用户可以优化系统利用率,提高应用程序性能。
Four Basic Components
实现研发统一工作门户,实现桌面处理、信息推送,信息共享,依托DSP平台集成及业务拓展能力,最大程度满足用户业务需求
提供有效调度作业,支持多种调度策略,支持异构平台,支持基于 CPU、GPU计算资源的调度,通过整合资源以获得更高性能
打破CAD和CAE的数据壁垒,通过远程可视化实现前后处理,仿真软件即需即用。
基于AI的深度学习,通过搭建Kubernetes的分布式Tensorflow、Caffe等系统,提供训练任务、任务监控等,提供扩展应用支持。
Product Advantage
网络阻塞自动侦测和记录
计算节点硬件故障自动侦测
支持所有系统上的作业休眠和恢复
集成应用程序级的断点和重启功能
自动清理僵死进程和文件碎片,自动清理失败MPI作业进程和并行环境
可靠的资源预留机制
内建内存溢出(OOM)保护
完整、详尽的系统日志、记账和消息传递功能
支持>1000个并发用户
支持>5,000个计算节点
支持>10,000个CPU
支持>1,000,000个作业
支持>千万亿支持
矩阵式权限策略,实现灵活授权
多层级权限校验,保证作业调、特定资源、特定节点的权限访问
依托DSP数字化服务平台强大的业务构建能力,为用户
提供了灵活、易用、高效的门户交互,并支持上下游
业务的无缝衔接
云智-HPC远程可视化组件,为用户提供的远程
可视化大数据、交互式使用图形应用程序等高品质服务
基于网络宽带和延迟的自适应压缩算法,实现远程可视
化更加顺畅。满足前后处理及作业可视化监控等需求。
提供基于AI的人工智能模型训练及智能预测等平台
搭建,提供Tensorflow、PyTorch和Caffe的作业提
交,通过在线提交计算资源需求即可启动训练任务,
支持单机多GPU和多机多GPU的训练任务。
Overall Architecture