第 1章 Web服务器日志分析项目 001
1.1 任务一:需求分析 002
1.2 任务二:技术方案设计 004
1.3 任务三:使用Flume采集日志数据 006
1.4 任务四:使用MapReduce清洗数据 008
1.5 任务五:使用Hive分析数据 012
1.6 任务六:使用Sqoop迁移数据 016
1.7 任务七:Java+ECharts数据可视化 018
1.8 答疑解惑 039
1.9 拓展练习 041
第 2章 招聘网站数据分析项目 043
2.1 大赛简介 044
2.2 任务一:需求分析 048
2.3 任务二:项目流程 050
2.4 任务三:使用Python“爬取”招聘网站数据 051
2.5 任务四:使用MapReduce预处理数据 056
2.6 任务五:使用Hive分析数据 062
2.7 任务六:使用Sqoop导出数据 065
2.8 任务七:Flask+ECharts数据可视化 067
2.9 任务八:编写分析报告 079
2.10 答疑解惑 080
2.11 拓展练习 084
第3章 电商网站实时数据分析项目 086
3.1 任务一:需求分析 087
3.2 任务二:项目方案设计 088
3.3 任务三:使用Flume+Kafka实时收集数据 089
3.4 任务四:使用Spark实时计算数据 091
3.5 任务五:Java+ECharts数据可视化 101
3.6 答疑解惑 113
3.7 拓展练习 114
第4章 金融大数据分析项目 116
4.1 大赛简介 117
4.2 任务一:需求分析 119
4.3 任务二:项目流程 121
4.4 任务三:使用Spark抽取离线数据 123
4.5 任务四:使用Spark统计离线数据 125
4.6 任务五:使用Flume+Kafka实时采集数据 128
4.7 任务六:使用Flink实时计算数据 130
4.8 任务七:Vue.js+Java+ECharts数据可视化 136
4.9 任务八:使用Spark ML数据挖掘 156
4.10 任务九:编写分析报告 160
4.11 答疑解惑 162
4.12 拓展练习 163
附录 165
附录1 Hadoop安装部署和配置 165
附录2 掌握HDFS Shell操作 175
附录3 通过WordCount熟悉MapReduce 182
附录4 深入理解MapReduce 186
附录5 Flume安装部署和配置 199
附录6 Hive安装部署和配置 200
附录7 Sqoop安装部署和配置 201
附录8 Hadoop高可用集群环境安装部署和配置 203
附录9 Hadoop集群节点动态管理 212
附录10 Kafka安装部署和配置 214
附录11 Spark安装部署和配置 217
附录12 Spark RDD算子 220
附录13 通过WordCount熟悉Spark RDD 230
附录14 Flink安装部署和配置 231