多技术融合迎接新挑战——青云ehpc
高性能计算(HPC)的可扩展性和无处不在正在深入到日常生活中。现阶段,超级计算推动了科学探索的发展,可以帮助解决气候变化和慢性病治疗等关键问题。
在具体应用方面,高性能计算与工业的结合越来越紧密。从金融到医疗,越来越多的数据分析需要高性能计算的有力支持,才能得到更快更稳定的解决方案。
11月23日,青云科技发布了基于青云公有云IaaS平台和PaaS平台云基础设施的青云EHPC产品,主要为用户提供公有云服务,为有需求的用户提供私有云和混合云产品。
青云平台与服务部高级总监陈海泉在接受记者采访时表示,青云的超算云平台能够完美支撑大数据与人工智能融合的超算业务,并以云服务的形式提供。让超级计算资源更轻松地交付给用户。
提供多场景适配
据青云EHPC产品经理苗辉介绍,此次推出的青云EHPC高性能计算平台,面向生命科学、CAE模拟、海洋气象等相关领域的高性能计算需求,提供丰富多样的使用模式,适配多种应用场景。通过统一的管理平台,不同领域的工程师和研究人员可以突破当地HPC基础设施的限制,快速启动云创新。
青云EHPC提供云超算SaaS服务,让作业快速便捷地运行。通过青云弹性公网IP和公网带宽,可以快速上传、下载数据,并与本地数据同步。
从客户群来看,青云EHPC覆盖了青云终端用户,这是一个从云计算到云结果输出的全流程计算服务平台。青云用户可以在云上快速运行工作,在几分钟内完成计算作业。
从服务架构来看,青云EHPC的服务架构主要分为三层,即资源层、管理层和用户端。
资源层主要包括青云的计算、存储和网络资源,以及相应的后台调度器、调度管理平台和可视化服务平台。
管理层主要提供SaaS服务。从作业开始到作业运行结束,系统会自动计算折扣信息、计量计费和作业监控服务,确保用户进来后对团队项目和团队项目权限进行相应的管理。
客户端是用户控制台,用户可以创建集群、管理集群、自动扩展、提交作业、调度作业和分析作业性能。通过用户控制台,用户可以轻松地操作作业。
从产品架构上看,青云EHPC可以从资源层提供高效的资源,从管理层提供方便快捷的管理服务,从客户端提供交互体验极佳的用户控制台。
同时,青云EHPC采用灵活的计算节点:在业务运营高峰期,青云可以扩大计算节点数量或改进计算节点配置;在低谷期,可以根据工作量进行缩容。这一安排将大大降低资源投入成本,提高资源利用效率,为用户提供更友好的解决方案。
多技术融合迎接新挑战
苗辉透露,青云EHPC拥有丰富的应用软件。在研究了传统的超算中心和目前的云服务商后,青云通过青云的技术将大型开源软件和商业软件放在共享软件目录上,让用户马上就能使用。同时,它还可以帮助用户安装和使用。青云提供的300多种软件不仅涵盖常用MPI库、数学软件等资源,还涵盖分子生物学、新能源、新材料、大气海洋环境、地球、物理等行业。
事实上,从青云EHPC的产品特点中,我们可以看出高性能计算和云计算的融合趋势。
高性能计算用途广泛,其核心是模拟世界上的一切。宏观上,我们可以通过卫星图像、遥感数据和气象数据,用高性能计算模拟地球、海洋和气候;微观上,我们可以模拟分子原子,了解生命原理,让药物研发更快、更精准。
在此背景下,高性能计算作为前沿技术,开始走出高校,进入行业,实现了更多场景应用的落地。同时,受益于技术的演进,高性能计算与大数据人工智能、云计算的融合越来越明显。
在医学领域,新冠肺炎疫情加快了大数据在医学和生命科学中的应用,推动了核酸疫苗和核酸药物的研发。在金融领域,大数据和人工智能与超算相结合,对多层次、多维度的数据进行分析,通过深度学习技术训练模型,并将其应用于风险控制,可将坏账率降低35%。
瞄准大数据、人工智能和超算融合的场景,对超算提出了一定的挑战。主要体现在存储容量比以前大了很多,不同类型的业务对存储的要求也不一样。因此,超算中心需要为不同的业务提供合适的存储类型。
早期的超算中心是围绕计算资源建设的,容量有限,存储类型单一,难以支撑大数据的场景。一些新一代超算中心已经具备了较强的承接仿真建模类大数据业务的能力,但由于超算中心本身提供的服务相对单一,无法承受大数据的业务需求。
同时,随着人工智能应用的爆发,对超算中心提出了新的要求:充足的GPU资源和相应的软件框架。这些企业通常希望以云原生方式部署和运行。因此,这对主要基于Slurm调度器的超算中心也是一个巨大的挑战。
因此,青云希望它能够适应人工智能、大数据和超算的基础设施,在适应不同服务的同时,尽可能地实现重用。这也是青云推出可全面支持多种新业务场景的EHPC超算云--青云EHPC的初衷。
破解行业痛点
据了解,此次推出的高性能计算平台,针对超算最常见的仿真建模业务,青云提供了低时延、高带宽的InfiniBand网络、高速并行文件存储和CPU/GPU计算组合,不仅可以支持大规模的解决方案运算,还可以为图形前后处理提供GPU桌面,完成闭环的业务场景。
针对大数据业务,青云云平台提供高达245PB的对象存储容量,与计算节点相结合,可用于大规模数据处理和分析。计算节点到对象存储的网络带宽为1.6T,可保证大数据计算的超高性能。
针对人工智能培训业务,青云提供100 GPU资源池和850PFlops全闪存并行文件存储,并可与容器平台相结合,提供性能极优化、轻便、开源、开源的人工智能平台。
此外,青云EHPC还解决了超算中心的另一个痛点--使用方式。超算中心的传统用户在使用时需要提交申请,并且有一个人工审批的环节。用户通过审核后,还需要安装VPN客户端连接到超算中心提供的登录节点。
超算中心的登录节点往往被多个用户共享。共享节点存在两个问题:一是超算中心为了保证自身安全不提供根权限,给软件安装带来一定的麻烦。其次,Linux会不时暴露一些系统漏洞。如果用户获得超级用户权限,他们就可以窃取平台上其他用户的数据。
因此,需要通过云平台与高性能计算相结合来解决不方便和不安全这两个问题。陈海泉表示,青云平台带来的最大变化之一,就是将传统的审批系统转变为用户自助服务的形式,用户可以随时在云平台上注册自己的账号,并对所需的计算资源进行充值。
在确保安全的同时,青云还可以让超算的使用变得非常灵活。陈海泉表示,青云提供两种不同类型的超算集群:传统共享型超算集群和专属EHPC集群。
“青云的愿景是与超算中心共建算力共享网络,将超算中心部署私有化,同时将全网算力与云平台打通,提供外部资源支持突发业务,避免排队。当超算中心资源空置时,还可以出售算力增加运营收入。”陈海泉说。
本文标签属性:
青云:青云志
高性能:高性能笔记本电脑推荐
场景:场景作文