大数据培训项目

一、项目介绍

项目概述:

本次大数据培训集合了企业中最前沿的技术,并从多方面诠释大数据技术的使用细节,结合真实的企业项目,让高校老师更好、更快、更深入的了解企业的大数据技术应用模式,具备从各种各样类型的数据中,快速获取有价值信息的能力。

培训内容包括数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测等。

本次培训旨在引导高校老师了解并掌握大数据相关技术的基本原理和简单运用,采用“知识点和项目相结合”的方式来讲授各个知识点,使高校老师“听得懂、学得会、做得出”。在整个培训期间,我们也会以企业的方式,带着高校老师了解大数据相关项目的开发流程,使高校老师具备分析问题、解决问题的能力,并能够将所学技术运用到日后教学过程中去。

项目亮点:

1.新增Flink流式计算框架内容,随着企业对海量数据实时处理需要的增多,Flink目前在互联网使用的非常广泛,本次课程把Flink加进来,通过基础知识和项目的结合,让学员能够快速的使用和了解Flink技术。

2.新增《互联网用户日志采集系统》案例,介绍互联网网站如何收 集用户在网页上的行为数据(点击、停留、浏览)、如何对用户行为进行分析、分析的结果如何做用户实际的业务系统,提升业务系统的运营效率。

3.新增《互联网推荐系统开发实战》案例,介绍推荐系统是什么, 推荐系统开发的常见流程,包括数据采集、数据处理、推荐算法等。

4.新增3-5个应用型的小项目,这样能够贯穿整个培训的技术体系,快速了解大数据技术进行开发应用。

课程升级:

1. 升级了Spark的课程,本次Spark课程包含离线案例、流式案例和数据挖掘案例。

2. 升级了Flink课程,2019年大数据培训首次加入Flink的课程,紧跟大数据的发展设计我们的培训课程。

3. 升级了培训的项目内容,本次培训的项目内容非常丰富,通过项目学习掌握相关的知识体系。

二.课程适合人群

本课程结合高校老师的实际情况,对现有的大数据技术进行归纳、梳理,整理出了一套适合高校老师的短期课程,通过学习此课程,可以全面了解大数据整体技术架构和原理,以及大数据能够应用于哪些领域和场景。通过真实的大数据项目讲解大数据开发流程、大数据平台规划、集群部署、应用开发。

参考学习资料:

Java基础视频,下载地址:

http://yun.itheima.com/course/7.html

备注:本套视频讲解 java 基础知识,需要重点学习基础语法、面向对象、java 常用 API。

JavaWeb视频,下载地址:

http://yun.itheima.com/course/6.html

备注:本套视频讲解了 java web 开发的知识,请重点学习 html、css、javascript、servlet/jsp 等。

Linux入门到精通视频,下载地址:

http://yun.itheima.com/course/363.html

备注:本套视频讲解了Linux操作系统、Linux自有服务、VIM编辑器、系统用户与权限、Linux网络与相关命令、Shell脚本入门、MySQL基础、LAMP环境配置+开源项目实战(YUM)等。

三、准备环境介绍

硬件:

1) 笔记本电脑 8G+或者以上内存、I5+处理器

2) 操作系统:Win7、Win10

软件:(下列软件我们会单独提供)

1)虚拟机软件

VMware-workstation-full-14.1.0-7370693.exe

2)Linux 镜像

CentOS-6.7-x86_64-minimal

3)更多其他软件

四、课程培训目标

1. 理解大数据基本概念和分布式原理;

2. 掌握大数据离线、实时开发相关技术Hadoop、Hive、Hbase、Sqoop、Flume、Kafa和Spark;

3. 掌握大数据项目开发流程和技术实现;

4. 能够使用所学大数据技术进行课程设计;

五、项目进度安排

本次培训计划如下:

DAY1:

Hadoop技术栈实战

1. Linux基础和增强
2. Centos的安装和配置
3. Hadoop技术栈的安装和配置(基于CDH5.14版本)
4. 分布式存储HDFS架构、原理和使用
5. 分布式计算MapReduce架构、原理和使用
6. 分布式资源管理Yarn架构、原理和使用

DAY2:

离线用户日志分析项目实战

1. Hive 数据仓库工具介绍
2. Sqoop、Flume数据抽取工具介绍
3. 互联网用户日志采集系统
4. 互联网用户日志数据建模
5. 互联网日志 HQL 分析
6. 分析结果报表展示

DAY3:

Spark技术栈实战

1. Spark的架构和原理
2. Spark的安装和配置(Yarn和Standalone)
3. Spark RDD的概念和特性
4. Transformation RDD讲解
5. Action RDD讲解
6. RDD的依赖关系、容错机制、存储级别、缓存机制(Cache\Persist)和广播操作等
7. Spark DAG的生成和处理过程(Stage\调度)
8. Spark SQL的功能和使用介绍

DAY4:

基于Spark的实时分析项目实战

1. 分布式消息队列Kafka
2. Spark Streaming的原理
3. Spark Streaming的窗口操作
4. Kafka和Spark Streaming整合
5. 电商数据实时指标统计分析(类似于阿里的双十一大屏显示)
6. 分析结果实时报表呈现

DAY5:

Flink技术栈实战和项目实战

1. Flink的架构和原理介绍
2. Flink的安装
3. Flink的数据流编程模型介绍
4. DataSet开发(Source、Transformation、Sink)
5. 广播变量的使用
6. 累加器和计数器
7. Kafka和Flink的案例整合