以云计算的方式提供超算,青云QingCloud EHPC做到了

2021-12-07 16:21:22

单从高能计算(HPC)市场来看,可谓是“高手如林”,致力于企业级云服务的青云科技(qingcloud.com,股票代码:688316),为何选择加入这个赛道?最新推出的QingCloud EHPC高能计算台,能给用户带来哪些差异化优势?我们先从大数据、人工智能与超算深度融合的角度开始谈起!

 高能计算的脚步无处不在

所谓高能计算,是指用大量服务器并行地对某一个任务执行运算,来解决工程和科学上的问题。就应用而言,高能计算用途很多,能模拟世界万物。宏观上,可以用卫星图像、遥感数据、气象数据来模拟地球、海洋和气侯,预测环境变化;微观上,能通过分子原子模拟,进行基因测序,来了解生命原理。

具体而言,高能计算是如何结合人工智能、大数据技术,与实际应用场景深入融合的呢?青云QingCloud 云台&服务部高级总监陈海泉,通过典型案例介绍,让我们对高能计算的认知,有了质的飞跃。

● 航空航天领域。我们基于过去几十年卫星照片的积累,再结合人工智能算法,通过地理信息的快速识别,全面分析地球变化,预测未来气候情况如何。为了得到全球卫星图像,科学家动用了1万台服务器,分析了 65万张遥感影像,其数据量的庞大,简直无法想象。但是,有了超算台,整个计算时间仅需要4个小时。

● 高端科学研究。中国科学院计算技术研究所副研究员商红慧,通过模拟拉曼光谱,设计了全电子精度的第一原理计算理论算法,从而得到蛋白质分子的信息,使得药物研发更快速、更精确。在多达3006个原子模拟的背后,是一套468 PFlops 算力的太湖之光超级计算机在支撑。

如果说科研场景距离我们的生活比较远,那么HPC在能源、大型赛事、医疗、金融等行业方面的诸多应用,一定会让你感觉到在咫尺。

● 石油勘探场景。工程师使用地震波反射法建模来模拟油藏,每次测量都会产生 PB 级的数据,如何基于庞大的数据进行密集计算和模拟,从而算出最优钻井位置?HPC在石油勘探效率提升层面,发挥了重要作用!

● 大型体育赛事现场支持。很多人都喜欢F1赛车比赛,那么主办方是如何不断提升观赛体验的呢?红牛车队会在比赛前,根据赛道情况,做特定环境模拟。包括使用虚拟风洞,来优化空气动力学;模拟电源散热系统,让赛车发挥最大功率;模拟碰撞优化车身结构,让赛车可以符合比赛的安全法规。最后,红牛车队会利用超算台的算力,在7 天内完成所有模拟和优化,以确保每场比赛都能发挥车队和车手的优势。

● 医药行业。新冠疫情加速了大数据在医药和生命科学上的应用,有效推进了疫苗和核酸类药物的研发。通过大数据获取,仅在病毒出现一周后就完成了基因序列的测量;在超算台上,只用了4个小时就设计出 mRNA 新冠疫苗。

金融领域。大数据、人工智能与超算更是完美结合,让坏账率降低了35%。通过超算台多维度的数据分析,以及持续迭代和优化模型训练,有效实现了金融风控的管理。

上述案例说明了三点:一、HPC与高精尖科技密不可分,高科技要想进步,必须基于大规模的数据进行计算;二、大数据驱动存储跟算力融合,超算中心不仅要关注算力,还要应对大数据的存储挑战; 第三,人工智能应用走向爆发阶段,不管是机器学,还是深度学,已开始结合模型训练、数据推理计算等,解决实际业务问题。

如果用一句话来概括,高能计算的发展,不再是一个遥不可及的高大上概念,而是已经渗透到各行各业,成为技术创新的动力引擎。

 如何让高能计算“好用又便宜”?

当大数据、人工智能与超算深度融合,当各行各业开始准备把高能计算引入核心业务时,挑战越来越明显。

首先,大数据的存储容量直线上升,带来了直接的存储成本。如何拥有无限的存储容量、最高的能,还要很便宜?

其次,不同类型的业务对存储的要求也不一样。超算中心如何对不同的业务提供合适的存储类型?

熟悉HPC的人都知道,比较早的超算中心都是围绕计算资源构建,基本只有 Lustre 并行文件存储,并且容量有限,难以支撑大数据场景。而新一代的超算中心有些已经配备了足够大的容量,可以承接仿真建模类大数据业务,但由于超算中心本身提供的服务比较单一,实际上也无法承载 MapReduce 这种纯粹的大数据业务。

其三,在人工智能应用爆发时代,要求超算中心要有充足的GPU资源,并且还要提供对应的软件框架,比如 TensorFlow。另外,在业务部署上,还希望用云原生的方式来运行,这对以 Slurm 调度器为主的超算中心也是一个很大的挑战。

大体来看,如何让高能计算“好用又便宜”?还有可探索的空间!

QingCloud EHPC为新业务场景而生

青云科技,是一家云计算企业,能为人工智能、大数据和超算的融合提供基础设施。但在支撑应用场景落地时,青云科技希望尽量能实现复用,而最新推出的QingCloud EHPC,就是为解决传统超算中心的痛点问题而生。

“QingCloud EHPC 是基于青云公有云IaaS、PaaS 层基础架构,为生命科学、海洋气象、地理测绘等基础科研领域,以及前沿科学与大数据、人工智能技术结合形成的新兴场景,提供从上云计算到结果产出的全流程SaaS化计算服务。” 青云QingCloud EHPC 产品经理苗慧,具体介绍了EHPC带来的差异化优势。

● 更方便。传统超算中心体验不好,使用时需要提交申请,还要经过人工审批,需要自己安装VPN客户端登录节点。青云云台带来的最大变化是,把传统的审批制度变成用户自服务的形式,用户随时可以到云台注册账号,充值购买他需要的计算资源。

● 更安全。超算中心的登录节点往往是很多用户共享的状态,为了保证安全,往往不提供 root 权限,软件安全过程非常麻烦。并且,Linux隔一段时间就会暴露出一些系统漏洞。如何解决超算中心的不安全问题?云台和高能计算台的结合,是最佳选择!

青云通过云计算技术确保了应用的全面安全。EHPC在安全方面带来三个改进:一,在计算、网络跟存储方面,实现了每个租户在物理及逻辑层面的强隔离。二,管理节点跟计算节点分离,租户可以使用完全独享的登录节点。第三,除了传统的VPN接入,青云还能提供零信任客户端,让用户登录更便捷和安全。

● 更灵活。为了让超算在使用体验上变得更灵活,青云提供了两种不同类型的超算集群。一个是,偏传统的共享型超算集群。虽然青云的计算集群是共享的,但提供给用户的登录节点是独享状态,软件安装、执行、操作还是在自己的节点上;另一个是最新的独享EHPC集群。这种集群能给用户提供一个root账号,用户使用会非常方便。用户不仅能自由地安装所需要的系统软件,还能切换超算台的各种软件,比如和AI相关的TensorFlow,或者和大数据相关的Hadoop、MapReduce等。同时,EHPC集群的计算、存储和网络类型,用户都可以自由搭配。比如:硬件支持是GPU,还是CPU;网络支持是以太网,还是IB网;存储选择上,是对象存储、NAS,还是并行文件存储,都可以灵活选择。

● 体验更好。为了打造高能计算台的一站式体验,青云还集成了不同行业的软件库。以工业仿真场景为例。这一功能的最大的特点是,其“求解集群”能够提供弹算力,可以快速完成求解运算。同时,通过桌面虚拟应用,可以帮助用户完成图形的前后处理,让超算最佳体验覆盖到工业仿真软件的全部业务流程。

● 降低运营成本。超算业务一般都是短期、大规模部署的方式,比如:1万个节点部署,只使用4个小时。这种突发业务增长,导致计算资源不够,而其他用户想使用计算资源的时候,需要长时间排队;而业务少的时候,大量资源空置,造成了资源浪费,带来了巨大的成本压力。而QingCloud EHPC台, 不仅能帮助用户私有化部署超算云台,还能运营自己的业务。通过连接全网算力的模式,EHPC可提供外部资源支撑,避免突发业务排队;而当超算中心自己的资源空置时,也可以对外出售算力,增加运营收入。

总体来看,青云的超算云台,不仅完美之地支撑了大数据和人工智能融合场景,还成为青云分布式云节点理念的重要一环,共建一个资源共享的算力网络,这让超算能力真正“走下神坛”,走向各行各业的具体应用场景中,这应该是超算以及云计算共同追求的理想境界。

关闭
精彩放送