课程名称:Python&大模型分布式数据分析
培训周期:五天
课程背景:
Python目前在全球范围内位于Top1编程语言的位置,证明了Python的火热。而在Python的应用场景中,数据分析场景是Python的基本盘。在数据分析场景中,Python由于其语法简单、开发高效、拥有众多的数据分析工具库等优势的结合,使得Python在数据分析业务中独占鳌头。同时,数字化时代下,数据量越来越大,传统的单机处理模式以无法胜任数据处理分析工作的性能要求,分布式处理技术应运而生。
本次课程基于Python语言和分布式处理框架Spark(PySpark)等工具结合多个数据分析场景:零售、电商、游戏等,为大家带来多场景下的数据分析课程。
并基于Python语言和Spark StructuredStreaming对实时产生的数据进行实时计算。在过程中,将辅助大模型工具,协助开发,提高开发效率。并配合可视化工具完成离线\实时数据看板的开发,基于实战掌握Python分布式数据分析的技巧和应用。
课程收获:
1. 系统掌握PySpark框架的应用
2. 掌握离线\实时数据看板开发技术
3. 掌握基于分布式体系进行数据分析
项目概述:
该针对零售、电商、游戏等业务场景和业务数据,基于Python PySpark等生态库完成对业务数据的价值提取。解决了个人或企业在多个业务场景下,对业务数据的数据价值提取的需求。
项目成果:
(漏斗分析图)
项目亮点:
1. 基于PySpark+Pandas框架进行开发
2. 多个业务场景,非单一应用
3. 结合可视化技术,对数据价值进行直观展示
4. 结合分布式技术,进行分布式数据分析操作
1. 有一定Python编程语言基础
2. 有一定SQL技术基础
3. 计算机应用技术、软件工程等专业讲师
4. 网络/通信、物联网、云计算等专业技术讲师
1. 掌握Python编程语言
2. 掌握SQL的基本使用
3. 掌握Python数据分析的常用套路
4. 掌握Pandas分析框架
5. 掌握Python可视化技术
获取方式:请扫描下方二维码,回复【Python&大模型分布式数据分析】即可获取完整预习资料。
硬件:
1.硬件:笔记本或者台式机
2.操作系统:Windows10
3.处理器:i5以上
4.内存:>8G
软件:
1. Python
2. Linux(CentOS)
PySpark、Pandas
7月22日Spark基础
7月23日场景1
7月24日场景2
7月25日场景3、场景4
7月26日场景5+总结