收起
一、培训目的:
现有硬件资源最大化利用,提供多种并行优化方案组合策略,提高并行程序设计与开发水平,熟悉常见的并行计算模式,了解深度学习的主流GPU加速解决方案;实际体验高性能计算环境,能够应对主流的超算环境;提供符合自身特点的工程计算解决方案,了解高性能计算和深度学习应用场景
二、主讲专家:
刘老师 中科院系统,研究领域:高性能计算,并行编程,生物医学图像处理。多年MPI/OpenMP/CUDA/OpenCL/OpenACC优化加速经验,多年大型项目移植优化经验。
三、培训内容:
高性能计算——并行计算基础 | 1、并行计算的应用场景和实际意义(战略、经济和成本); 2、并行计算机体系结构:处理器、内存和互连网,常用的并行计算机系统; 3、性能分析模型:如何测量并行性能和扩展性; 4、 CPU/GPU体系结构对比介绍:流水线、多核、缓存、访存、通信模型、分支预测等; |
基本的MPI编程技术 | 1、 MPI编程基本概念: 2、 基本编程语句 3、 主要点到点通信函数: ① 阻塞通信 ② 非阻塞通信 |
上机实操: 1、 两个进程间相互传递并打印消息 2、 用不同方法实现结点间的循环消息传递(阻塞、非阻塞、发送-接收函数) 3、 超松弛迭代法(SOR)的并行实现 | |
高级MPI编程技术 | 1、 自定义新的数据类型: ① 连续数据类型 ② 向量数据类型 ③ 索引数据类型 ④ 结构数据类型 2、 集合通信方法 广播、归约、收集、发散 3、 通信域和虚拟拓扑 4、 并行算法设计一般性方法: ① 划分 ② 通信 ③ 组合 ④ 映射 |
高级MPI编程技术 | 1、 自定义新的数据类型: ① 连续数据类型 ② 向量数据类型 ③ 索引数据类型 ④ 结构数据类型 2、 集合通信方法 广播、归约、收集、发散 3、 通信域和虚拟拓扑 4、 并行算法设计一般性方法: ① 划分 ② 通信 ③ 组合 ④ 映射 |
上机实操: 1、 矩阵向量乘法 2、 计算圆周率 | |
多核编程技术——OpenMP和Pthread | 1、 多核、众核编程模型及其发展趋势 2、 Pthread编程 3、 OpenMP多线程编程 |
上机实操: 1、 用不同的OpenMP制导语句实现计算圆周率 2、 用MPI+OpenMP实现超松弛迭代法的并行 | |
GPU高性能计算——OpenACC编程基础与优化进阶 | 1、 OpenACC基础:概念,与CUDA区别,编译器,生态; 2、 OpenACC开发环境搭建配置; 3、 OpenACC四步开发流程:判断并行性,并行化表达,显式数据传递,优化 3.1判断并行性:Profile工具pgprof; 3.2并行化表达:引导关键字Kernerls和Parallel Loop; 3.3显式管理数据的拷贝:引导关键字Data; 3.4优化:统一内存管理,线程并行层级,collapse,tile |
OpenACC上机实操: 1. Hellow world; 2.矢量点乘; | |
GPU高性能计算——CUDA编程基础与优化进阶 | 1、 CUDA基础:API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比; 2、 CUDA开发环境搭建和工具配置; 3、 CUDA优化进阶:线程组织调度,分支语句,访存优化,数据传输,原子操作; 4、 GPU并行计算模式及案例分析: 分析调试:parallel nsight,visual profiler,cuda-gdb; 5、 CUDA生态系统和相关专业领域软件介绍; |
CUDA上机实操: 1、 Helloworld,向量加,cuda库的使用(cuBLAS、cuFFT ); 2、 矩阵乘,直方图,卷积,规约; | |
大规模并行开发:多GPU开发 | 1、 GPU异步编程,多GPU编程(混合OpenMP和MPI)及调试调优工具; 2、 OpenACC互操作性:OpenMP,MPI,CUDA; |
OpenACC上机实操: 1、 Jacobi迭代 | |
GPU高性能计算——深度学习 | 1、 深度学习GPU解决方案: 1.1基于GPU的交互式深度学习训练平台:DIGITS; 1.2深度学习框架的GPU加速:TensorFlow,Caffe等; 1.3 NVIDIA深度学习SDK:cuDNN,TensorRT,NCCL; 1.4深度学习显卡选择; |
深度学习上机实操: 1、 Caffe,TensorFlow,Theano等通用深度学习框架的GPU加速库cuDNN的使用; | |
GPU技术前沿 | 1、 CUDA 9新特性 2、 Pascal,Volta显卡新架构 |
四、时间地点:
2018年1月26日-29日 25日报到 北京
五、培训对象:
从事高性能计算、GPU加速、并行计算、CUDA编程、openCV、石油、气象、化工、人工智能、深度学习、计算机视觉、人脸识别、 图像处理、行人检测、自然语言处理等领域相关的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关技术人员。
六、费用:
¥RMB:4300元/人含报名费、培训费、教材费、资料费)食宿统一安排费用自理。
七、颁发证书:
颁发人社部中国职协“高性能计算开发与应用工程师”(高级)培训证书、证书可在官网(http://cx.cnhr.org/)查询,可作为能力评价、考核和任职的重要依据。证书费用(可选):500元/人
联系电话:18310280875 邮箱:merlin_liu@163.com