与时俱进,京东云高性能计算平台

京东云开发者
• 阅读 13

作者:京东科技 林顺利

持续演进的高性能计算

高性能计算是利用超级计算机实现并行计算的一门技术。通过使用大量通用型计算节点搭建阵列式计算集群,替代单体超级计算机的方式,来实现并行计算加速,已成为高性能计算的通用方案。

经过多年发展,高性能计算已成为各个领域解决复杂计算和进行大规模数据分析的技术底座,如 汽车和航天行业通过空气动力模拟来提升燃油效率、能源行业通过分析地震和地质数据来实现石油勘探、医药行业通过药物筛选和蛋白质结构模拟来加速新药研发、气象行业通过卫星 雷达和探空数据进行计算模拟来预测气候。

近年来人工智能和机器学习迎来了爆炸式发展。DeepMind的科学家开发了能够准确预测蛋白质结构的人工智能工具 AlphaFold,利用AI技术实现了蛋白质合成后从无规则的多肽链自发形成的特定三维结构的精准预测。中国科学技术大学教授研发出数据智能驱动的"机器化学家",通过人工智能完成高通量合成、表征、测试的化学实验全流程,实现了高熵非贵金属析氧反应催化剂的高效创制。

通过人工智能技术来助力和加速科学研究,即AI for Science已成为一种新型的科学研究范式。而AI底层基础设施依赖于高性能计算HPC技术,用于提升AI模型训练和推理速度。

我们可以大胆预测,未来会有越来越多的基础科学研究基于AI+高性能计算的技术来开展。但是对于从事AI的企业和开发者而言,HPC并不是一个能够简易获得、上手即用的方便设施,这里存在着极大地运维和学习成本。

传统的HPC平台

传统的HPC平台基于物理机或云主机,在此之上安装Slurm或PBS调度器实现集群管理和资源监控。对于新入局科学研究行业的企业和开发者、以及AI科学家而言,使用传统高性能计算平台可能会存在诸多问题:

(1)建设成本高

需要采购高主频硬件、RDMA网络和高性能存储;

需要专业的IT运维搭建控制面、数据面、登录节点;

(2)复杂的集群运维

调度组件维护和升级;

SSH用户的文件权限管理;

适应业务动态调整集群资源分区;

存储服务磁盘容量监控、扩容;

用户作业配额管理;

(3)运行任务有一定学习门槛作业提交的交互和非交互模式;作业调度脚本语法;调度器常用命令、参数; (4)弹性能力差

集群满载时,新加入资源从采购到加入集群需要较长时间;

扩容的资源在集群负载不高时闲置,造成资源浪费;

除此之外,容器、微服务、声明式API构成的云原生基础设施,已成为构建AI应用的主流架构。主流人工智能平台和开源的AI框架/套件(如 Tensorflow、Pytorch、Paddlepaddle)支持部署至Kubernetes环境,提升AI模型开发、训练、推理效率。而传统的高性能计算平台目前仍缺乏对云原生底层设施灵活适配的方案和快速扩展的能力。

新一代HPC平台

京东云高性能计算HPC平台致力于降低企业基础设施建设和运维成本,使用户聚焦于高性能计算作业本身,低门槛快速使用平台能力。并且兼顾新型科学研究和AI开发场景,以普惠的方式对外提供高性能计算HPC能力。

兼容物理机、云主机等各类基础设施,支持对用户IDC存量物理节点进行利旧。在此之上构建统一资源管理的调度平台,并最终以产品化交互的方式,对外提供超算作业运行能力。 与时俱进,京东云高性能计算平台

与传统的HPC平台相比,新一代的HPC平台具备种种优势: (1)降低运维和财务成本

  • 基于云的高性能集群,无需用户进行基础设施的搭建和运维;
  • 秒级弹性,一键快速加入集群,扩充计算资源;
  • 集群长时间空闲时快速释放云上资源,降低成本;

与时俱进,京东云高性能计算平台

(2)细粒度权限管控

  • 底层资源使用者不可见不可登录,保障租户安全性;
  • 基于RBAC的权限管理,企业人员变动快速更新权限、停用账户;
  • 与时俱进,京东云高性能计算平台

(3)低门槛快速使用

  • 用户无需编写作业脚本,仅需控制台提交作业运行程序,可视化声明资源需求即可运行作业;
  • 适配云原生开发环境,支持通过容器镜像运行作业;
  • 平台集成镜像管理和文件管理能力,制品、算例文件、结果文件在平台内闭环管理; 与时俱进,京东云高性能计算平台

(4)丰富的预置软件

平台预置数十款基础科学研究常用的高性能计算软件,用户可直接基于模板软件进行科学计算(部分商业化软件需用户额外购买授权),加速输出计算结果。

与时俱进,京东云高性能计算平台

(5)成本观测和资源优化平台精准跟踪记录用户每一次高性能计算运行所消耗的资源,集群管理者可针对性的进行用户维度的配额限制。过程中的资源监控辅助研发、运维人员观测单任务运行过程实际的资源占用情况,与任务初始分配值对比,优化任务对资源的申领,避免任务申请资源闲置而新任务无法调度。

总结

京东云高性能计算HPC平台以其简易操作的平台体验和云上丰富的弹性资源,为企业和个人开发者在高性能计算任务场景带来了灵活性和便利性。在AI+基础科学的新趋势下,助力企业降本增效。

京东云HPC平台目前处于灰度测试阶段,欢迎通过微信或企业微信扫描下方二维码加入 京东云HPC超算平台交流群 与我们一同交流。

点赞
收藏
评论区
推荐文章
Wesley13 Wesley13
3年前
Java总结
在现在这个科技飞速发展的时代,计算机已经悄然走进我们的生活,并且占据了不可动摇与替代的地位,无论是在工作还是生活,学习还是娱乐中,当我们意识到的时候,却突然发现我们已经离不开这个叫做“电脑”的机器了。既然我们要时刻与电脑打交道,那就像人际交往一样,交流是必不可少的,所以计算机语言应运而生,而java作为一种简单、安全、容易使用、面向兑现、可移植、高性能、
Stella981 Stella981
3年前
Linux集群架构
一、集群介绍集群,简单地说是指一组(若干个)相互独立的计算机,利用高速通信网络组成一个较大的计算机服务系统,每个集群节点(即集群中的每台计算机)都是运行各自服务的独立服务器。集群的特点:高性能(Performance)、价格有效(Costeffectiveness)、可伸缩性(Scalability)、高可用性(Ava
畅享高性能计算!天翼云HPC解决方案来了
6月15日,“天翼云HPC解决方案加速企业数字化转型”专题讲座在线上召开,天翼云科技有限公司高级解决方案经理梁小彪、天翼云科技有限公司高级工程师孙晓宁作为主讲人,分别对天翼云HPC解决方案及应用、天翼云高性能计算产品做了分享。在十四五规划与双碳目标的驱使下,高性能计算的技术研发越来越重视低碳减耗。随着互联网应用场景不断拓展,数据流量爆发式增长,企业对高性能
计算机视觉与信息取证技术讲解
今晚20:0022:00人工智能技术与自信计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标就是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力。要经过长期的努力才能达到的目标。因此,在实现最终目标以前,人们努力的中期目标是建立一种视觉系统,这个系统能依据视觉敏感和反馈的某
HPC云化部署的优势和挑战
HPC云化部署指的是将高性能计算(HPC)工作负载部署在云计算平台上,这种方式带来了一些明显的优势,但同时也面临一些挑战。以下是HPC云化部署的主要优势和挑战:
HPC的基本概念
HPC(HighPerformanceComputing)是一种高性能计算技术,它利用大规模并行处理器集群或超级计算机等高性能计算设备,以及高速网络互联技术,实现对大规模数据和复杂计算任务的高效处理和分析。
“分离”“聚合”两手抓,天翼云聚合计算赋能多元化应用场景!
随着大数据、人工智能和高性能计算的迅猛发展,在大数据分析、基因测序、芯片设计、数据库和AI训练等“大计算”应用场景中,计算资源需求呈现爆发式增长态势,而传统的计算架构在资源利用率、扩展性、IO性能等方面存在诸多挑战。
直播倒计时1天!天翼云HPC解决方案助力企业腾飞
数字时代下企业如何畅享高性能计算?高性能计算的背后是哪些技术在做支撑?6月15日14:0014:50“天翼云HPC解决方案加速企业数字化转型”直播将准时开启倒计时1天!敬请期待!