高性能稀疏矩阵算法调优及应用论坛预约报名-中科图云活动-活动行

活动详情
活动嘉宾

论坛主办方：中国科学院计算技术研究所高性能计算机研究中心

论坛简介：

由于稀疏矩阵计算广泛存在于量子化学、有限元分析等科学与工程计算，以及社交网络分析、压缩深度神经网等现代机器学习应用之中，加州大学伯克利分校在其著名报告《The Landscape of Parallel Computing Research: A View from Berkeley》中将稀疏矩阵计算列为最重要的并行计算模式之一。近几十年来，如何运用更大规模的并行计算平台进行高可扩展、高性能和高实用的稀疏矩阵计算一直是一个极具挑战的开放性问题。本论坛将面向关注大规模并行科学与工程计算和现代机器学习应用的科研人员，邀请到国内稀疏矩阵计算领域的知名学者和一线科研人员做前沿学术报告，展开稀疏矩阵计算的学术研讨。

讲座论坛嘉宾：

徐小文，北京应用物理与计算数学研究所中物院高性能数值模拟软件中心，研究员

薛巍，清华大学计算机科学与技术系高性能计算研究所，副教授

刘伟峰，中国石油大学（北京），教授

赵永华，中国科学院计算机网络信息中心，研究员

贾伟乐，中国科学院计算技术研究所高性能计算机研究中心，副研究员

何鑫，中国科学院计算技术研究所高性能计算机研究中心，副研究员

王银山，中国科学院计算技术研究所高性能计算机研究中心，副研究员

讲座论坛日程[具体日程安排以当天现场为准]：

9:00-10:00	代数多重网格算法：大规模应用现状与挑战	徐小文，北京应用物理与计算数学研究所中物院高性能数值模拟软件中心，研究员
10:00-11:00	申威众核处理器上的稀疏矩阵计算库设计与优化	薛巍，清华大学计算机科学与技术系高性能计算研究所，副教授
11:00-12:00	稀疏直接法解法器的性能挑战与优化	刘伟峰，中国石油大学（北京），教授
14:00-15:00	稀疏特征值问题并行算法库HPSSE及在国产超级计算机上的高效实现	赵永华，中国科学院计算机网络信息中心，研究员
15:00-16:00	选择求逆——电子结构计算中的稀疏矩阵求解的应用	贾伟乐，中国科学院计算技术研究所高性能计算机研究中心，副研究员
16:00-17:00	面向分布式+异构众核计算系统稀疏矩阵解法器库X-Solver	何鑫，中国科学院计算技术研究所高性能计算机研究中心，副研究员
17:00-18:00	HPCG在曙光7000上的性能优化	王银山，中国科学院计算技术研究所高性能计算机研究中心，副研究员

讲座论坛内容摘要：

1. 代数多重网格算法：大规模应用现状与挑战

摘要：代数多重网格算法（AMG）自1982年提出以来，经过近四十年的发展，已成为实际应用中求解大规模稀疏线性代数方程组最常用、最有效的加速算法之一。本报告回顾AMG算法及软件研发历程，阐述在大规模计算环境下，AMG算法在实际数值模拟应用中面临的挑战以及当前的一些研究进展。

2. 申威众核处理器上的稀疏矩阵计算库设计与优化

摘要：稀疏矩阵计算在科学仿真、机器学习和数据分析领域有广泛的应用。国产申威处理器核数众多、每核内存带宽低、核间通信复杂为在其上设计和实现高效的稀疏矩阵计算带来了困难。针对此，我们设计和开发了申威众核架构上稀疏矩阵计算库swSparse，在矩阵数据格式、任务划分与调度等方面进行了分析与优化。本报告介绍了swSparse的设计和开发进展，并对未来工作进行探讨。

3. 稀疏直接法解法器的性能挑战与优化

摘要：以稀疏Cholesky或稀疏LU分解为基础的稀疏直接法解法器是高性能科学与工程计算中不可或缺的组成部分之一。特别是对于一些较为病态的线性系统，稀疏直接法解法器也许能够获得比迭代法更高的求解效率。然而，在GPU等大规模并行处理器上，稀疏直接法解法器还面临同步、计算和访存上的一些性能挑战。本报告将介绍我们最近完成的几个高性能稀疏直接法解法器的工作：（1）我们设计了一个GPU上的无同步稀疏LU分解算法，能够避免因为矩阵稀疏结构导致的大量层次同步带来的开销；（2）我们研究了Supernodal LU分解方法中最耗时的矩阵乘法计算，并分析了其稀疏结构和转化成稀疏矩阵乘法能获得的性能提升；（3）我们实现了一个递归分块的稀疏三角解算法，进一步利用了数据局部性和稀疏矩阵向量乘法的高并行度以提高稀疏直接法解法器求解阶段的性能。

4. 稀疏特征值问题并行算法库HPSSE及在国产超级计算机上的高效实现

摘要：大规模稀疏特征值问题是许多科学和工程应用（包括量子化学、电子结构和材料科学等）的计算核心，也是科学与工程计算中巨大挑战性的问题。随着应用问题和物理模型复杂化增加以及高性能计算机发展，其一直是高性能计算极力解决的计算问题。报告介绍我们在稀疏特征值问题并行算法库和求解器方面的工作，以及在神威·太湖之光和曙光419两台不同架构国产超级计算机上对稀疏矩阵特征值求解器的实现和优化情况。内容包括：（1）通过重构和优化稀疏矩阵结构，给出了具有计算和通信重叠稀的稀疏矩阵特征值并行算法，并通过预处理优化通信将数据通信量控制到了最小。（2）针对稀疏特征值算法中核心计算，研发了通用的稀疏矩阵并行核心计算模块和数据通信包。(3) 自主成功研发特征值问题并行求解软件包HPSSE和稀疏类特征值求解器，提供了支持特征值问题求解的稀疏矩阵预条件算法库。（4）针对神威·太湖之光和曙光419不同架构100PF级国产超级计算机，实现并优化了HPSSE稀疏特征值问题求解器，并通过整机性能测试验证了求解器的高效性。

5. 选择求逆——电子结构计算中的稀疏矩阵求解的应用

摘要：在本报告中，我们将介绍稀疏矩阵计算在第一性原理计算中的应用。我们使用选择求逆算法来计算物理体系的电子结构，以及这种方法如何在现代超级计算机上的实现。在这个问题中，核心为题是要统筹计算和通信之比，实现计算和通信的重叠，并且同时高效的完成间接访存。最终我们展示在传统的CPU集群，以及在未来的异构超算上选择求逆的可扩展性。

6. 面向分布式+异构众核计算系统稀疏矩阵解法器库X-Solver

摘要：80%左右的高性能计算和应用都与稀疏矩阵的求解和运算相关。由于其广泛性和重要性，迭代求解方法High Performance Conjugate Gradient（HPCG）也作为现代高性能计算机TOP500排名的基准测试之一。我们以适应新型计算机体系结构为目标，研发了面向分布式、异构众核超算系统的稀疏矩阵解法器库X-Solver。采用共享存储程序设计风格极大简化了分布式存储+异构众核系统上的程序设计，因此具有较好的易用性和移植性。同时，采用分层设计的策略，将对解法器性能影响较大的共性计算单元-BLAS核心操作集与解法器进行解耦拆分。这一分层设计，既可以使开发者根据自身专业背景开展针对性的实现与优化，同时，BLAS核心操作集又可以单独存在并支撑其它高性能计算与应用。

7. HPCG在曙光7000上的性能优化

摘要：HPCG算法是采用多重网格预处理CG迭代法求解大规模稀疏线性系统得高性能测试基准程序。该算法相较HPL更能代表大多数应用的负载特征，更考验超算机的访存和网络系统。曙光7000是一个新型异构超算系统，采用海光CPU和加速卡DCU。我们在该系统上的优化经验可以更好的帮助应用在曙光7000上的移植和优化。主要的优化手段包括：首先，采用分块染色法提升数据局部性，优化访存效率。其次，针对Stencil模式利用虚拟边界对齐数据，增加数据重用。再次，通过kernel融合、剔除无效访存进一步提升性能效率。最终，通过计算通讯重叠技术提升扩展性，并在45360张卡上取得了1.43pflops和86%的扩展性。