高性能计算平台在高校中的应用与建议

 

随着科技的发展,计算机与我们的日常工作和学习生活之间的关系变得更加密切。在大数据的背景下,高性能计算(High performance computing,HPC),又称为超级计算,是计算机科学重要的前沿性分支,也大量地投入到对大数据的应用当中[1]。超算即超级计算机,是指由数千甚至更多处理器组成、能计算普通计算机和服务器不能完成的大型复杂课题的计算机,超级计算机是计算机中功能最强、运算速度最快、存储容量最大的一类计算机,被誉为“计算机中的珠穆朗玛峰”,已成为世界各国争夺的一个战略制高点[2]。超级计算机多用于国家高科技领域和尖端技术研究,是国家科技发展水平和创新能力的重要标志。

        超级计算机被称为“国家重器”,属于国家战略高技术领域,是世界各国竞相角逐的科技最高点。超级计算机应用场合很多,大多都是高精端领域,比如天气预测、核爆炸模拟、飞机飞行计算、弹道计算、各种场合的3D建模等等。随着信息时代的来临,目前最流行的大数据概念,再结合云计算,超级计算机的应用将越来越广,甚至深入商业领域[3]。超级计算机作为一个国家科技实力的体现和科技发展的基础支撑环境,受到全球超级大国的重视,各国都在全力发展本国的超级计算机。

        我国《国家重点专项规划之——“十三五”国家科技创新规划》中明确提出“发展先进计算技术,重点加强E级(百亿亿次级)计算、云计算、量子计算、人本计算、异构计算、智能计算、机器学习等技术研发及应用”。[1]

        截止到2019年11月世界超级计算机排名上,中国的神威·太湖之光(Sunway TaihuLight)全球排名第三,其最大算力为9.301 459 388亿亿次每秒,峰值算力为12.543 590 4亿亿次每秒;中国的天河-2A(Tianhe-2A)排名第四,其最大算力为6.144 450 0亿亿次每秒,峰值算力为10.067 866 4亿亿次每秒,如表1所示。

        当前,高性能计算已经成为解决国家发展面临的重大挑战性问题和科技创新的必备工具。计算科学领域高度依赖于高性能计算与科学大数据、深度学习之间的深度融合。近年来,人工智能的突破正是建立在超级计算机计算能力突飞猛进的发展和深度学习算法的成功结合上。发展以超级计算机为支撑平台的先进计算系统,将进一步推动高性能计算、智能计算和大数据的深度融合与创新发展。

        1 高校高性能计算建设现状

        近年来,国家对高性能计算的重视程度不断提升,高性能计算在我国很多领域都取得了巨大发展,高校作为科技创新的重要基地,对高性能计算的关注日益提高,众多高校都投入建设了校级高性能计算平台,强大的计算能力极大地提升了学校科研工作的能力和水平,促进了相关教学、科研工作的开展,高性能计算已成为高校教学、科研创新的一个基本手段。[4]

        1.1 本校高性能计算平台介绍

        河北大学高性能计算平台于2014年9月投入使用,总投资1 200余万元。系统包括计算刀片节点110片、胖节点18台、管理节点2台、可视化节点2台、GPU节点4台、MIC节点1台、并行存储3台、CPU核数大于4 000个。计算能力可达119.7万亿次/秒(TFLOPS)。存储裸容量182.88 TB,聚合带宽2.4 GB/s,全系统采用56 Gbps FDR InfiniBand线速互连,如图1所示。

        作为服务于全校性的大型共享平台,高性能计算中心规模大,获得了学校和曙光厂商的重点支持。此外,高性能计算中心有专职管理人员负责,集群的运行状态比较稳定。

        1.2 高性能计算平台的设备配置

        高性能计算系统内部互连带宽56 Gbps,芯片传输延迟100 ns;全系统内存容量8.7 TB,在线共享存储磁盘容量183 TB;最大运行功耗为90 kW;机柜数量16个,如表2所示。

        1.3 高性能计算平台安装的队列

        到目前为止,平台上总共安装有15个队列,分别是blade_s1、blade_s2、balde_s3、blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、temporary_blade、test_blade、test_flat,队列上的作业运行良好。

        1.4 高性能计算机平台上安装的软件

        目前,集群现已安装并能正常使用的软件包含Guessian、VASP、WIEN 2k、Cestep、RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,这些软件已经可以满足平台用户的需求。

        2 高性能计算平台运行情况

        到目前为止,集群共运行3万多个作业,累计使用机时为2 783.3753万小时,作业使用核数总计为498万,输出数据均在良好范围内,运行状态正常。

        2.1 高性能计算平台的申请使用情况

        现平台使用单位中包括电子信息工程学院、生命科学学院、物理科学与技术学院、化学与环境科学学院、质量技术监督学院、药学院、计算机教学部、建筑工程学院、网络空间安全与计算机学院和药物化学与分子诊断教育部重点实验室。

        截止到2019年底,全校共有43个课题组申请使用高性能计算平台,覆盖63个科研项目,其中国家级科研项目38个,省级科研项目22个,完结12个科研项目。

        2.2 高性能计算平台运行维护情况

        2.2.1 集群总览

        以下对2016年度至2019年度平台的运行情况进行了分析,其中:2016年度共完成21個用户的26 222个作业,累计使用机时为554.704 3万小时;2017年度共完成27个用户的64 688个作业,累计使用机时为580.454 3万小时,平均作业机时为89.73小时。2018年度共完成39个用户的84 078个作业,累计使用机时为754.047 2万小时,平均作业机时为89.68小时,如表3所示。

        2017相比2016年机时增长4.64%,作业数增长146.69%;2018相比2017年机时增长29.91%,作业数增长29.97%,2019年度共完成49个用户的73 415个作业,累计使用机时为894.169 5万小时,平均作业机时为121.80小时。2019相比2018年机时增长18.58%,作业数减少12.68%,如图3、图4所示。

        2.2.2 队列统计情况

        以2019年度为例,作业队列统计如下:

        (1)队列blade_s1共完成了8 509个作业,占作业总数的11.59%,使用机时为60.703 4万小时,占总机时的6.79%;

        (2)队列blade_s2共完成了6 858个作业,占作业总数的9.34%,使用机时为112.690 2万小时,占总机时的12.60%;

        (3)队列blade_s3共完成了3 152个作业,占作业总数的4.29%,使用机时为58.248 2万小时,占总机时的6.51%;

        (4)队列blade_x共完成了26 546个作业,占作业总数的36.16%,使用机时为131.996 9万小时,占总机时的14.76%;

        (5)队列flat_amd共完成了12 730个作业,占作业总数的17.34%,使用机时为320.708 0万小时,占总机时 的35.87%;

        (6)队列matlab共完成了58个作业,占作业总数的0.08%,使用机时为0.000 5万小时,占总机时的0.00%;

        (7)队列msi_blade共完成了1 268个作业,占作业总数的1.73%,使用机时为40.627 6万小时,占总机时的4.54%;

        (8)队列msi_flat共完成了179个作业,占作业总数的0.24%,使用机时为4.414 3万小时,占总机时的0.49%;

        (9)队列queue_gpu共完成了6个作业,占作业总数的0.01%,使用机时为0.000 2万小时,占总机时的0.00%;

        (10)队列temporary_blade共完成了9 070个作业,占作业总数的12.35%,使用机时为139.892 9万小时,占总机时的15.65%;

        (11)队列test_blade共完成了3 811个作业,占作业总数的5.19%,使用机时为16.075 0万小时,占总机时的1.80%;

        (12)队列test_flat共完成了1 228个作业,占作业总数的1.67%,使用机时为8.812 4万小时,占总机时的0.99%;如图5、图6所示。

        2.2.3 高性能计算平台维护情况

        2016年度将Gridview升级为全新的Gridview 3.2集群管理调度系统,完成了Gridview相关Portal安装。新增MATLAB,TensorFlow等软件的安装工作。并且根据高性能计算平台运行情况,结合使用者的反映情况和意见,对高性能计算平台进行了资源管理调配和清理维护工作,对原空闲模式期间的队列以及任务配额进行了调整,合理分配了用户的作业数、使用核数以及可用队列。

        1.2 高性能计算平台的设备配置

        高性能计算系统内部互连带宽56 Gbps,芯片传输延迟100 ns;全系统内存容量8.7 TB,在线共享存储磁盘容量183 TB;最大运行功耗为90 kW;机柜数量16个,如表2所示。

        1.3 高性能计算平台网络拓扑图

        集群采用全新的Gridview 3.2管理调度系统,集群拓扑结构如图2所示。

        1.4 高性能计算平台安装的队列

        到目前为止,平台上总共安装有15个队列,分别是blade_s1、blade_s2、balde_s3、blade_x、flat_amd、flat_intel、flat_ls、matlab、msi_blade、msi_flat、queue_gpu、queue_mic、temporary_blade、test_blade、test_flat,队列上的作业运行良好。

        1.5 高性能計算机平台上安装的软件

        目前,集群现已安装并能正常使用的软件包含Guessian、VASP、WIEN 2k、Cestep、RAxML、Intel Fortran、Material Studio、Trinity、NAMD、Siesta、MATLAB、TensorFlow、GROMACS、ANSYS、BLAST、VSim、Beagle、BioStack、MrBayesMatlab等,这些软件已经可以满足平台用户的需求。

        2 高性能计算平台运行情况

        到目前为止,集群共运行3万多个作业,累计使用机时为2 783.375 3万小时,作业使用核数总计为498万,输出数据均在良好范围内,运行状态正常。

        2.1 高性能计算平台的申请使用情况

        现平台使用单位中包括电子信息工程学院、生命科学学院、物理科学与技术学院、化学与环境科学学院、质量技术监督学院、药学院、计算机教学部、建筑工程学院、网络空间安全与计算机学院和药物化学与分子诊断教育部重点实验室。

        截止到2019年底,全校共有43个课题组申请使用高性能计算平台,覆盖63个科研项目,其中国家级科研项目38个,省级科研项目22个,完结12个科研项目。

        2.2 高性能计算平台运行维护情况

        2.2.1 集群总览

        以下对2016年度至2019年度平台的运行情况进行了分析,其中:2016年度共完成21个用户的26 222个作业,累计使用机时为554.704 3万小时;2017年度共完成27个用户的64 688个作业,累计使用机时为580.454 3万小时,平均作业机时为89.73小时。2018年度共完成39个用户的84 078个作业,累计使用机时为754.047 2万小时,平均作业机时为89.68小时,如表3所示。

        2017相比2016年机时增长4.64%,作业数增长146.69%;2018相比2017年机时增长29.91%,作业数增长29.97%,2019年度共完成49个用户的73 415个作业,累计使用机时为894.169 5万小时,平均作业机时为121.80小时。2019相比2018年机时增长18.58%,作业数减少12.68%,如图3、图4所示。

        2.2.2 队列统计情况

        以2019年度为例,作业队列统计如下:

        (1)队列blade_s1共完成了8 509个作业,占作业总数的11.59%,使用机时为60.703 4万小时,占总机时的6.79%;

        (2)队列blade_s2共完成了6 858个作业,占作业总数的9.34%,使用机时为112.690 2万小时,占总机时的12.60%;

        (3)队列blade_s3共完成了3 152个作业,占作业总数的4.29%,使用机时为58.248 2万小时,占总机时的6.51%;

        (4)队列blade_x共完成了26 546个作业,占作业总数的36.16%,使用机时为131.996 9万小时,占总机时的14.76%;

        (5)队列flat_amd共完成了12 730个作业,占作业总数的17.34%,使用机时为320.708 0万小时,占总机时 的35.87%;

        (6)队列matlab共完成了58个作业,占作业总数的0.08%,使用机时为0.000 5万小时,占总机时的0.00%;

        (7)队列msi_blade共完成了1 268个作业,占作业总数的1.73%,使用机时为40.627 6万小时,占总机时的4.54%;

        (8)队列msi_flat共完成了179个作业,占作业总数的0.24%,使用机时为4.414 3万小时,占总机时的0.49%;

        (9)队列queue_gpu共完成了6个作业,占作业总数的0.01%,使用机时为0.000 2万小时,占总机时的0.00%;

        (10)队列temporary_blade共完成了9 070个作业,占作业总数的12.35%,使用机时为139.892 9万小时,占总机时的15.65%;

        (11)队列test_blade共完成了3 811个作业,占作业总数的5.19%,使用机时为16.075 0万小时,占总机时的1.80%;

        (12)队列test_flat共完成了1 228个作业,占作业总数的1.67%,使用机时为8.812 4万小时,占总机时的0.99%;如图5、图6所示。

       


已发布

分类

来自

标签: