GPU并行编程C/C++,Matlab，Python北京12月多语言框架高性能课程_发现精彩城市生活-活动发布及直播平台！！

GPU并行编程C/C++,Matlab，Python北京12月多语言框架高性能课程

并行学院多语言框架高性能GPU并行编程 C/C++,Matlab，Python课程

一、培训简介

随着人工智能AI、大数据Big Data、云计算Cloud Computing等计算机科学技术的发展和应用的普及，深度学习DL和人工智能AI成为当下最炙手可热的技术趋势，将成为技术行业基础设施的核心组成部分。GPU的价值不止体现在深度学习，在高性能计算、物联网、人工智能、生物信息、分子模拟、计算化学、材料力学、系统仿真、流体力学、机械设计、生物制药、航空动力、地质勘探、气候模拟等领域，算法越来越复杂，需要处理的海量数据越来越巨大，高性能计算能力就显得尤为重要。传统HPC的三门语言C/C++/Fortran依然展现了顽强的生命力，面对日益更新的语言框架需求，Python/Matlab同样存在很大的优化空间。

由北京并行科技股份有限公司与中科院计算所西部高等技术研究院联合主办、北京中科图云科技有限公司与北京安控冠博科技有限公司协办的“多语言框架高性能GPU并行编程--C/C++,Matlab，Python”培训将于2019年12月14日-18日在北京·并行学院举办，本次培训精讲HPC的GPU并行编程，首次开设Python HPC和Matlab HPC模块。

主办单位：北京并行科技股份有限公司、中科院计算所西部高等技术研究院

协办单位：北京中科图云科技有限公司、北京安控冠博科技有限公司

未命名1574392908.png 未命名1574393116.png 未命名1574393142.png 未命名1574393154.png 未命名1574393128.png 未命名1574393090.png 未命名1574392894.png

二、培训目的

现有硬件资源最大化利用，提供多种并行优化方案组合策略,提高并行程序设计与开发水平，熟悉常见的并行计算模式,了解主流GPU加速解决方案；实际体验高性能计算环境，能够应对主流的超算环境；提供符合自身特点的工程计算解决方案，了解高性能计算和深度学习应用场景。

三、培训日期

§ 培训日期：2019年12月14日~18日 9：00-12：00 14：00-17：00

§ 培训地点：北京·并行学院

§ 温馨提醒：请务必自备电脑

四、培训费用

5980元/人

（含报名费、培训费、材料费、资料费，不含证书费，提供食宿参考、费用自理）

优惠政策：

1）并行学院往期学员可凭借并行学院学号编码，即可享受原价8.5折优惠；

2）并行学院老学员成功推荐新学员参加培训，即可获得300元优惠券，具体请咨询卢老师或胡老师。

培训证书（550元/人）

工信部全国网络与信息技术培训考试管理中心颁发的证书。该证书可作为专业技术人员职业能力考核的证明，以及专业技术人员岗位聘用、任职、定级和晋升职务的重要依据。

五、培训讲师

刘老师

中国科学院系统，主要研究领域为高性能计算、并行编程、生物医学图像处理，拥有多年MPI/OpenMP/CUDA/OpenCL/OpenACC优化加速经验与大型项目移植优化经验。

谢老师

中科院计算所工程师，长期从事并行优化工作，有流体力学，医学图像处理等多个方向的优化经验。

周老师

中科图云AI事业部解决方案经理。在控制工程、计算机视觉、电子技术等方面有深入研究，曾带领团队设计并完成“单导联心电信号分析解决方案”“家庭物联网解决方案”、“变电站移动巡检机器人解决方案”、“髋关节超声图像分割解决方案”、“DL-30激光测距解决方案”等多体系综合解决方案。

六、培训内容

GPU并行编程：OpenACC+CUDA

GPU高性能计算——OpenACC编程基础与优化进阶

1、 OpenACC基础：概念，与CUDA区别，编译器，生态；

2、 OpenACC开发环境搭建配置；

3、 OpenACC四步开发流程：判断并行性，并行化表达，显式数据传递，优化

3.1判断并行性：Profile工具pgprof；

3.2并行化表达：引导关键字Kernerls和Parallel Loop；

3.3显式管理数据的拷贝：引导关键字Data；

3.4优化：统一内存管理，线程并行层级，collapse，tile

OpenACC上机实操：

1. Hellow world；

2．矢量点乘；

GPU高性能计算——CUDA编程基础与优化进阶

1、 CUDA基础：API、数据并行、线程模型、存储模型、控制、同步、并发和通信、加速比；

2、 CUDA开发环境搭建和工具配置；

3、 CUDA优化进阶：线程组织调度，分支语句，访存优化，数据传输，原子操作；

4、 GPU并行计算模式及案例分析：

分析调试：parallel nsight，visual profiler，cuda-gdb；

5、 CUDA生态系统和相关专业领域软件介绍；

CUDA上机实操：

1、 Helloworld，向量加，cuda库的使用（cuBLAS、cuFFT ）；

2、矩阵乘，直方图，卷积，规约；

大规模并行开发：多GPU开发

1、 GPU异步编程，多GPU编程（混合OpenMP和MPI）及调试调优工具；

2、 OpenACC互操作性：OpenMP，MPI，CUDA；

OpenACC上机实操：

1、 Jacobi迭代

GPU高性能计算——深度学习

1、深度学习GPU解决方案：

1.1基于GPU的交互式深度学习训练平台：DIGITS；

1.2深度学习框架的GPU加速：TensorFlow，Caffe等；

1.3 NVIDIA深度学习SDK：cuDNN，TensorRT，NCCL；

1.4深度学习显卡选择；；

GPU技术前沿

1、 CUDA 10新特性

2、 Pascal，Volta，Turing显卡新架构

Matlab HPC

Matlab程序基础（基础语法）	Matlab基本用法，编程语法，matlab工具箱等
Matlab程序性能评估 tic,toc,cputime,clock()	tic(),toc(),cputime(),clock()等相关函数
基于多核处理器的matlab程序加速	任务并行 Matlab线程池的申请和释放，基于perfor的多线程加速基于perfevel的多线程并行数据并行
基于并行计算工具箱的matlab加速	Matlab内置gpu函数， parallel computing toolbox
Matlab与c/c++接口	MEX库API MEX库相关函数利用MEX实现matlab和c语言混编
基于CUDA的matlab加速	基于CUDAkernel，MEX的matlab加速

Python HPC

并行计算	应用场景
	并行计算环境
	并行算法及相关问题
	并行化
Python基础	Python简介（What&Why）
	数据类型（num、string、list、dictionary）
	输入输出
	循环
	函数
Numpy模块	Array&Array Operations
Numpy模块	线性运算
threading模块	定义一个线程
	确定当前线程
	实现一个线程
	使用queue进行线程通信
multiprocessing模块	产生一个进程
	给进程命名
	后台运行一个进程
	kill一个进程
	在子类中使用进程
	使用进程池
Mpi4py模块	并行hello
	点对点通讯
	避免锁死问题
Pycuda模块	Hello GPU
Pycuda模块	GPU&CPU

² 获得并行超算云账号及2000核时，进行免费试算；

² 获得培训使用工具一个；

发票事宜

开具发票（电子或纸质）

发票内容为会议注册费、会议费、培训费、资料费

培训通知：培训当天领取纸质版盖章通知

疑问可咨询：

中科图云小助手微信：TuyunAssistant

更多资讯可关注：

订阅号：中科图云

服务号：中科图云AICloud

中科图云