##课程概括
- 讲师:王家林
- 简介:DT大数据梦工厂创始人和首席专家.
- 邮箱:[email protected]
- 电话:18610086859
- QQ:1740415547
- 微信:18610086859
- 在线免费YY课堂(每天晚8点):68917580
- 微博地址:http://weibo.com/ilovepains
##课程目录
###一:Spark基础
- 第1集:大数据最火爆语言Scala光速入门
- 第2集:Scala面向对象彻底精通
- 第3课:Scala函数式编程彻底精通
- 第4课:Scala模式匹配、类型系统彻底精通
- 第5课:彻底精通Scala隐式转换和并发编程
- 第6课:精通Spark集群搭建与测试
- 第7课:实战解析Spark运行原理和RDD解密
- 第8课:彻底实战详解使用IDE开发Spark程序
- 第9课:彻底实战详解 IntelliJ IDEA下的Spark程序开发
- 第10课:彻底实战详解使用Java开发Spark程序
- 第11课:彻底解密WordCount运行原理
- 第12课:HA下的Spark集群工作原理解密
###二:Spark进阶
-
第25课:世界第一的Spark Sort-Based Shuffle内幕工作机制、案例实战、源码剖析、优缺点及改进方式等彻底解密
-
第31课:Spark资源调度分配内幕天机彻底解密:Driver在Cluster模式下的启动、两种不同的资源调度方式源码彻底解析、资源调度内幕总结
-
第32课:Spark Worker原理和源码剖析解密:Worker工作流程图、Worker启动Driver源码解密、Worker启动Executor源码解密等
-
第33课:Spark Executor内幕彻底解密:Executor工作原理图、ExecutorBackend注册源码解密、Executor实例化内幕、Executor具体工作内幕
-
第42课:Spark Broadcast内幕解密:Broadcast运行机制彻底解密、Broadcast源码解析、Broadcast最佳实践
###三:Spark优化
- 第44课:真正的Spark高手是如何炼成的?!
- 第45课:王家林谈Spark性能优化第一季!
- 第46课:Task性能优化、数据倾斜、网络!
- 第47课:Spark程序数据结构的优化、Spark内存消耗诊断、persist和checkpoint
- 第48课:Spark性能优化之序列化、SparkJVM性能调优!
- 第49课:数据本地性、RDD自定义
- 第50课:Shuffle性能调优!
- 第51课:王家林谈Spark性能优化第七季之Spark 钨丝计划解密!
- 第52课:王家林谈Spark性能优化第八季之Spark Tungsten-sort Based Shuffle 内幕解密
- 第53课:王家林谈Spark性能优化第九季之Spark Tungsten内存使用彻底解密
- 第54课:王家林谈Spark性能优化第十季之全球独家揭秘Spark统一内存管理!
###四:Spark SQL
- 第55课:60分钟内从零起步驾驭Hive实战
- 第56课:揭秘Spark SQL和DataFrame的本质
- 第57课:Spark SQL on Hive配置及实战
- 第58课:使用Java和Scala在IDE中开发DataFrame实战
- 第59课:使用Java和Scala在IDE中实战RDD和DataFrame转换操作
- 第60课:使用Java和Scala在IDE中实战RDD和DataFrame动态转换操作
- 第61课:Spark SQL数据加载和保存内幕深度解密实战
- 第62课:Spark SQL下Parquet使用最佳实践和代码实战
- 第63课:Spark SQL下Parquet内幕深度解密
- 第64课:Spark SQL下Parquet的数据切分和压缩内幕详解
- 第65课:Spark SQL下Parquet深入进阶
- 第66课:Spark SQL下Parquet中PushDown的实现
- 第67课:Spark SQL下采用Java和Scala实现Join的案例综合实战(巩固前面学习的Spark SQL知识)
- 第68课:Spark SQL通过JDBC操作Mysql
- 第69课:Spark SQL通过Hive数据源实战
- 第70课:Spark SQL内置函数解密与实战
- 第71课:Spark SQL窗口函数解密与实战
- 第72课:Spark SQL UDF和UDAF解密与实战
- 第73课:Spark SQL Thrift Server实战
- 第74课:Hive on Spark大揭秘 完整版
- 第75课:Spark SQL基于网站Log的综合案例实战
- 第76课:Spark SQL实战用户日志的输入导入Hive及SQL计算PV实战
- 第77课:Spark SQL基于网站Log的综合案例实战之Hive更大规模数据导入、Spark SQL对数据UV操作实战
- 第78课:Spark SQL基于网站Log的综合案例用户用户跳出率和新用户注册比例
- 第79课:Spark SQL基于网站Log的综合案例综合代码和实际运行测试
- 第80课:Spark SQL网站搜索综合案例实战
- 第81课:一节课贯通Spark SQL工作源码流程
###五:Spark Streaming
- 第82课:Spark Streaming第一课:案例动手实战并在电光石火间理解其工作原理
- 第83课:透彻讲解使用Scala和Java两种方式实战Spark Streaming开发
- 第84课:图解StreamingContext、DStream、Receiver并结合源码分析
- 第85课:基于HDFS的SparkStreaming案例实战和内幕源码解密
- 第86课:SparkStreaming数据源Flume实际案例分享
- 第87课:Flume推送数据到SparkStreaming案例实战和内幕源码解密
- 第88课:SparkStreaming 从Flume Poll数据案例实战和内幕源码解密
- 第89课:SparkStreaming on Kafka之Kafka解析和安装实战
- 第90课:SparkStreaming基于Kafka Receiver案例实战和内幕源码解密
- 第91课:SparkStreaming基于Kafka Direct案例实战和内幕源码解密
- 第92课:SparkStreaming中Tanformations和状态管理解密
- 第93课:SparkStreaming updateStateByKey 基本操作综合案例实战和内幕源码解密
- 第94课:SparkStreaming 实现广告计费系统中在线黑名单过滤实战
- 第95课:通过Spark Streaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战
- 第96课:通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
- 第97课:使用Spark Streaming+Spark SQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名
- 第98课:使用Spark Streaming实战对论坛网站动态行为的多维度分析(上)
- 第99课:使用Spark Streaming实战对论坛网站动态行为的多维度分析(下):完整案例实现、测试、Debug等
- 第100课:使用Spark Streaming+ Spark SQL + Kafka+FileSystem综合案例
- 第101课:使用Spark Streaming企业实际数据处理流水线完整声明周期
- 第102课:动手实战Spark Streaming自定义Receiver并进行调试和测试
- 第103课:动手实战联合使用Spark Streaming、Broadcast、Accumulator实现在线黑名单过滤和计数
Spark Streaming电商广告点击综合案例
- 第104课:Spark Streaming电商广告点击综合案例需求分析和技术架构
- 第105课:Spark Streaming电商广告点击综合案例在线点击统计实战
- 第106课:Spark Streaming电商广告点击综合案例黑名单过滤实现
- 第107课:Spark Streaming电商广告点击综合案例底层数据层的建模和编码实现(基于MySQL)
- 第108课:Spark Streaming电商广告点击综合案例动态黑名单过滤真正的实现代码
- 第109课:Spark Streaming电商广告点击综合案例动态黑名单基于数据库MySQL的真正操作代码实战
- 第110课:Spark Streaming电商广告点击综合案例通过updateStateByKey等实现广告点击流量的在线更新统计
- 第111课:Spark Streaming电商广告点击综合案例在线实现每个Province点击排名Top5广告
- 第112课:Spark Streaming电商广告点击综合案例实战实现广告点击Trend趋势计算实战
- 第113课:Spark Streaming电商广告点击综合案例实战模拟点击数据的生成和数据表SQL建立
- 第114课:(完整版)SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)
###六:大型Spark项目性能优化系列
- 第115课:超大规模Spark性能优化本质思考
- 第116课:Spark Streaming性能优化:如何在毫秒内处理处理大吞吐量的和数据波动比较大 的程序
- 第117课:Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka链接的稳定性
- 第118课:Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源?
- 第119课:Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变?
- 第120课:Spark Streaming性能优化:如何在End-to-End生产环境下安全高效的把结果数据存入HBase中?
- 第121课:Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数测试
- 第122课:Spark Streaming性能优化:Spark Streaming处理分布式拒绝服务案例及性能优化
- 第123课:Spark Streaming性能优化:通过Spark Streaming发现Botnet及性能优化
- 第124课:Spark Streaming性能优化:通过Spark Streaming进行设备日志监控报警及性能优化思考
###七:Spark Streaming疯狂解密系列
- 第125课:Spark Streaming反思和启示:一切皆是流式处理及Spark Streaming 架构和运行机制
- 第126课:Spark Streaming源码经典解读系列之一:基于DStream的DStreamGraph源码内幕
- 第127课:Spark Streaming源码经典解读系列之二:Spark Streaming生成RDD并执行Spark Job源码内幕解密
- 第128课:Spark Streaming源码经典解读系列之三:JobScheduler工作内幕源码解密
- 第129课:Spark Streaming源码经典解读系列之四:JobGenerator工作内幕源码解密
- 第130课:Spark Streaming源码经典解读系列之五:Receiver工作内幕源码解密
- 第131课:Spark Streaming源码经典解读系列之六:ReceiverTracker工作内幕源码解密
- 第132课:Spark Streaming源码经典解读系列之七:Executor容错工作内幕源码解密
- 第133课:Spark Streaming源码经典解读系列之八:Driver容错工作内幕源码解密
- 第134课:Spark Streaming“魔镜秘境”总结
###八:Spark面试宝典(数据倾斜、性能调优等)
- 第135课:Spark面试经典系列之数据倾斜:数据倾斜之痛
- 第136课:Spark面试经典系列之数据倾斜解决原理和方法总论
- 第137课:Spark面试经典系列之数据倾斜解决之Map 端Reduce及问题思考
- 第138课:Spark面试经典系列之数据倾斜解决之采样分而治之解决方案
- 第139课:Spark面试经典系列之数据倾斜解决之对于两个RDD数据量都很大且倾斜的Key特别多如何解决?
- 第140课:Spark面试经典系列之数据倾斜解决之并行度的深度使用
- 第141课:Spark面试经典系列之数据倾斜解决方案的“银弹”是什么?
- 第142课:Spark面试经典系列之Cache和Checkpoint
- 第143课:Spark面试经典系列之Reduce端OOM和shuffle file not found如何解决
- 第144课:Spark面试经典系列之NULL值问题及序列化错误