Python&大模型分布式数据分析培训方案

·数据分布式分析及实时计算

一、课程背景

课程名称:Python&大模型分布式数据分析

培训周期:五天

课程背景:

Python目前在全球范围内位于Top1编程语言的位置,证明了Python的火热。而在Python的应用场景中,数据分析场景是Python的基本盘。在数据分析场景中,Python由于其语法简单、开发高效、拥有众多的数据分析工具库等优势的结合,使得Python在数据分析业务中独占鳌头。同时,数字化时代下,数据量越来越大,传统的单机处理模式以无法胜任数据处理分析工作的性能要求,分布式处理技术应运而生。

本次课程基于Python语言和分布式处理框架Spark(PySpark)等工具结合多个数据分析场景:零售、电商、游戏等,为大家带来多场景下的数据分析课程。

并基于Python语言和Spark StructuredStreaming对实时产生的数据进行实时计算。在过程中,将辅助大模型工具,协助开发,提高开发效率。并配合可视化工具完成离线\实时数据看板的开发,基于实战掌握Python分布式数据分析的技巧和应用。

课程收获:

1. 系统掌握PySpark框架的应用

2. 掌握离线\实时数据看板开发技术

3. 掌握基于分布式体系进行数据分析

二、项目介绍

项目概述:

该针对零售、电商、游戏等业务场景和业务数据,基于Python PySpark等生态库完成对业务数据的价值提取。解决了个人或企业在多个业务场景下,对业务数据的数据价值提取的需求。

项目成果:

(漏斗分析图)

项目亮点:

1. 基于PySpark+Pandas框架进行开发

2. 多个业务场景,非单一应用

3. 结合可视化技术,对数据价值进行直观展示

4. 结合分布式技术,进行分布式数据分析操作

三、适合人群

1. 有一定Python编程语言基础

2. 有一定SQL技术基础

3. 计算机应用技术、软件工程等专业讲师

4. 网络/通信、物联网、云计算等专业技术讲师

四、培训目标

1. 掌握Python编程语言

2. 掌握SQL的基本使用

3. 掌握Python数据分析的常用套路

4. 掌握Pandas分析框架

5. 掌握Python可视化技术

五、参考预习资料

获取方式:请扫描下方二维码,回复【Python&大模型分布式数据分析】即可获取完整预习资料。

六、准备环境介绍

硬件:

1.硬件:笔记本或者台式机

2.操作系统:Windows10

3.处理器:i5以上

4.内存:>8G

软件:

1. Python

2. Linux(CentOS)

PySpark、Pandas

七、课程日程安排

7月22日Spark基础

  • 1.Spark入门
  • 2.PySpark入门

7月23日场景1

  • 1.场景1(零售业)数据分析项目
  • 2.业务介绍
  • 3.数据介绍
  • 4.流程分析
  • 5.开发

7月24日场景2

  • 1.场景2(电商)数据分析项目
  • 2.业务介绍
  • 3.数据介绍
  • 4.流程分析
  • 5.学员实战

7月25日场景3、场景4

  • 1.场景3(游戏)数据分析项目
  • 2.业务介绍
  • 3.数据介绍
  • 4.流程分析
  • 5.开发

7月26日场景5+总结

  • 1.场景5(车联网(实时))数据分析项目
  • 2.学员实战
  • 3.课程总结和提升