China Alluxio User Meetup 预约报名-活动-活动行

活动内容收起 展开

议题一 14:00-14:45 Alluxio的演化之路

讲者介绍：

李浩源, Alluxio公司的创始人和CEO。博士毕业于加州大学伯克利分校，在AMPLab读博期间联合创造了开源的内存级虚拟分布式存储系统Alluxio（曾用名Tachyon）。此外，他是Apache Spark项目的founding committer。李浩源硕士和本科分别毕业于康奈尔大学和北京大学。

内容摘要：

未来是数据的时代，数据的高效管理、存储以及访问的抽象无疑是这个时代的基石。开源分布式虚拟数据系统Alluxio致力于为大数据、机器学习、以及人工智能提供简单高效的数据抽象、便捷的数据共享以及高速的I/O，同时让应用与数据的持久化隔离并提供丰富的存储系统选择。经过数年的发展，Alluxio由最初加州大学Berkeley分校AMPLab里仅有数名博士生以及研究人员参与的研究项目原型，发展到超过800名代码贡献者（Alluxio 1.8发布时数据），并部署在包括腾讯、百度、京东和Two-Sigma、巴克莱银行等上百家中外行业领导者的生产环境中，成为数据平台和数据基础架构的一个重要组成部分。

Alluxio项目创始人李浩源将回顾自己从在大学实验室中创立科研项目，到融资并成立公司以支持项目的落地和发展，并一路推动社区发展至今的演化历程，并分享Alluxio项目在各个不同行业里的成功案例。

议题二 14:45-15:30 展望Alluxio 2.0

讲者介绍：

范斌，Alluxio公司的创始成员, Alluxio开源项目的PMC成员. 加入Alluxio项目之前, 范斌就职于Google Mountain View。范斌博士毕业于卡内基梅隆大学(Carnegie Mellon University)计算机系, 博士期间从事分布式系统算法和实现, 是CuckooFilter以及高性能的多线程KV库libcuckoo的作者. 有多项专利并在SIGCOMM, SOSP, NSDI等顶级学术会议上发表论文.

内容摘要：

Alluxio社区在2018年9月发布1.8.1之后，已经开始着手设计、试验并实现下一代重大升级版本Alluxio 2.0。范斌将分享Alluxio 2.0系统着眼的功能、面临的挑战，介绍开发者社区对于对RPC系统升级，完整支持异步写，数据副本的管理，以及自建的HA模式（无需依赖Zookeeper或者HDFS）等重要功能的目标、设计和进度。同时，作为Alluxio开源项目的核心开发者，范斌还将分享在过去数年中Alluxio团队总结的一些分布式系统开发的经验教训及最佳工程实践。

议题三 15:30-16:15 Alluxio 在京东Ad Hoc平台的应用——对JDPresto的加速

讲者介绍：

张芒，京东大数据平台计算引擎负责人，2015年加入京东，主要负责adhoc平台的搭建、架构升级及日常维护工作。开源软件爱好者，目前是Hadoop，Hive，Presto，Alluxio的Contributer

内容摘要：

京东adhoc平台自2017年开始使用alluxio，目前已部署超过500个物理节点，每天加载超过70T的数据，alluxio为adhoc平台部分Presto应用带来了10X的性能提升和稳定的亚秒级查询体验；基于alluxio实现独立的shuffle service服务，根据任务级别和任务类型（Spark，MR）决定shuffle数据存储等级（RAM，SSD，HDD）

议题四 16:15-17:00 Alluxio 在七牛云深度学习训练平台 AVA 上的应用

讲者介绍：

谢博文，七牛云研发工程师，硕士毕业于上海交通大学，目前专注于为深度学习训练平台提供稳定高性能的存储系统。

内容摘要：

七牛云 Atlab 实验室专注于机器视觉方向的深度学习研究。我们团队针对深度学习训练打造了高效的训练平台 AVA，深度整合了存储和计算资源。为了提高算法工程师训练模型的效率，我们使用 Alluxio 加速训练任务读取海量视频、图片等样本文件，并针对我们的应用场景，从元数据管理和读写分离等方向入手对 Alluxio 进行改造，实现了文件读写性能 50% 以上的提升，同时显著降低了存储系统的成本和容量风险。

议题五 17:00-17:45 Alluxio内存文件系统在搜狗的实践

讲者介绍：

肖邦，搜狗大数据平台高级开发工程师，主要负责致力于Spark/Hive计算引擎的开发与性能优化，结合Alluxio内存文件系统提升计算稳定性等工作

内容摘要：

本次分享主要包括了Spark shuffle 基于Alluxio的优化，以及基于Alluxio对于临时表的性能改进：1.在搜狗大量的数据分析, 知识图谱的数据制作使用Spark/SparkSQL来进行并行计算，大部分由于Spark On Yarn存在各类问题导致业务SLA水平仅为96%，结合Alluxio内存文件系统，我们将Spark业务的稳定性水平SLA提升到99.22%，广泛应用于数据分析以及高优先级业务中；2.同时在搜狗存在部分任务使用Hive/Spark临时表作为中间计算，使用Alluxio性能提升22.2%。目前Alluxio部署1000+机器上，运行了半年时间。

议题六 17:45-18:30 Q&A，交流

举报活动