回到顶部

【上海站】Cloudera数据分析师培训:Pig、Hive和Impala

2019年8月23日 9:00 ~ 2019年8月25日 17:00

收起

活动票种
    付费活动,请选择票种
    展开活动详情

    活动内容收起

    提升你的生态系统专业知识:
    Apache Hive使得没有Java编程经验的分析师、数据库管理员等数据专业人员能够访问多结构化数据。Apache Pig将熟悉的脚本语言的基本属性应用在Hadoop集群中。Cloudera Impala通过自身SQL引擎实现了对存储在Hadoop中数据的实时交互分析。

     

    认证编号:
    CCA159。

     

    培训内容:
    通过讲师在课堂上的讲解,以及实操练习,学员将熟悉Hadoop生态系统,学习主题包括:
    >  Pig、Hive和Impala针对数据采集、存储和分析而提供的功能。
    >  Apache Hadoop的基本原理,以及使用Hadoop工具进行数据ETL(提取、转换和加载)、撷取和处理。
    >  Pig、Hive和Impala是如何提高典型分析任务的处理效率的。
    >  联接多种多样的数据集,以获得有价值的商业洞察力。
    >  执行实时、复杂的数据集查询。


    培训对象和学员基础:
    本课程是专为数据分析师、商业智能专家、开发人员、系统架构师和数据库管理员开发的。培训学员需具备一定的SQL知识水平,且基本熟悉Linux命令行。培训学员至少熟悉一种脚本语言知识(例如,Bash脚本编程、Perl、Python和Ruby)将会更有帮助,但不是必需的。此外,培训学员不需要具备Apache Hadoop知识。



    课程大纲:

    Hadoop 基础知识 
    > Hadoop
    动机。 > Hadoop 概述。 > 数据存储:HDFS > 分布式数据处理:YARNMapReduce     Spark >数据处理与分析:PigHiveImpala > 数据集成:Sqoop > 其它的 Hadoop 数据工具。 > 练习分析场景说明。

     

    Pig 简介 
    > Pig
    是什么? > Pig 的特点。 > Pig 使用案例。 > Pig 的交互。


    Pig
    基本数据分析 
    > PigLatin
    语法。 > 加载数据。 > 简单数据类型。 > 字段定义。 > 数据输出。 > 架构查看。 > 数据筛选和排序。 > 常用函数。

    使用 Pig 处理复杂的数据 
    >
    数据存储格式。 > 复合 /嵌套数据类型。 > 数据分组。 > 复杂数据内置函数。 > 遍历分组数据。

    Pig
    多数据集操作 
    >
    数据集合并技术。 > Pig 中联接数据集。 > 集合运算。 > 拆分数据集。Pig 故障诊断和性能优化 > Pig 故障排除。 > 日志。> 使用 Hadoop Web UI > 数据采样及调试。 > 性能概述。 > 了解执行计划。 > 提高 Pig 作业性能的技巧。

     

    Hive Impala 简介 
    >
    什么是 Hive > 什么是 Impala > 架构和数据存储 > Hive 与传统数据库的比较。 > Hive 使用案例。


    使用 Hive Impala 进行数据查询 
    >
    数据库和表。 > 基本的 Hive Impala 查询语言语法。 > 数据类型。 > Hive Impala 查询语法之间的差异。 > 使用 Hue 来执行查询。 > Impala Shell 的使用。

     

    数据管理 
    >
    数据存储。 > 创建数据库和表。 > 加载数据。 > 修改数据库和表。 > 使用视图简化查询。 > 存储查询结果。

     

    数据存储和性能 
    >
    对表进行分区。 > 选择文件格式。 > 管理元数据。 > 控制对数据的访问。使用 Hive     Impala 进行关系数据分析 > 联接数据集。 > 常见的内置函数。 > 聚合和窗口函数。

     

    理解、扩展和改善 Impala 
    > Impala
    是如何执行查询的。 > 使用用户定义的函数扩展 Impala > 改善 Impala 的性能。

     

    使用Hive分析文本和复杂数据 
    > Hive
    中的复杂数据。 > Hive 中使用正则表达式。 > 情感分析和 N-Grams > 结论。

    Hive
    优化 
    >
    了解查询性能。 > 控制作业执行计划。 > Bucketing(分桶)。 > 索引数据。

    扩展 Hive 
    > SerDes
    > 基于自定义脚本的数据转换。 > 用户定义函数。 > 参数化查询。

    选择最佳工具 
    >
    比较 MapReducePigHiveImpala    关系数据库。 > 该选择哪一个?

     




    举报活动

    活动标签

    最近参与

    • Lily
      收藏

      (5年前)

    • 愚公弃山
      收藏

      (5年前)

    • 小樹葉???
      收藏

      (5年前)

    • JC
      收藏

      (5年前)

    • leo
      收藏

      (5年前)

    您还可能感兴趣

    您有任何问题,在这里提问!

    为营造良好网络环境,评价信息将在审核通过后显示,请规范用语。

    全部讨论

    还木有人评论,赶快抢个沙发!

    活动主办方更多

    时课网

    时课网

    上海碧茂信息科技有限公司,是中国科学院上海计算技术研究所孵化企业,全球顶级大数据科技公司Cloudera中国区合作伙伴,专业大数据解决方案服务商。 公司成立于2011年,肩负推进中国科学院上海计算技术研究所项目成果产业化的使命,致力于中国企业,尤其是金融、政府、电信等行业的数字化转型战略。

    微信扫一扫

    分享此活动到朋友圈

    活动日历   04月
    1 2 3 4 5 6 7
    8 9 10 11 12 13 14
    15 16 17 18 19 20 21
    22 23 24 25 26 27 28
    29 30 1 2 3 4 5

    免费发布