- 畅销套餐
- 精选套餐
- 人气套餐
- 尊享套餐
- 高薪套餐
- 课程介绍
- 课程大纲
适合人群:
Hadoop算法工程师、大数据工程师、数据挖掘工程师
你将会学到:
让听众了解Web日志分析概述,通过案例介绍、KPI指标设计等方面进行需求分析,讲解算法模型和程序开发多面过程,下载Time的统计结果。
课程简介:
主要用Hadoop处理Web日志数据,包括:Web日志分析概述,KPI指标设计,Hadoop并行算法,日志KPI系统架构,用Maven构建Hadoop项目,MapReduce程序实现 几个方面的内容。
前言
本视频为Hadoop实战视频,在给Dataguru网络课程《Hadoop应用开发实战案例》培训时录制,Web日志包含着网站重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值等。一般中型的网站(10W的PV以上),每天会产生1G以上Web日志文件。大型或超大型的网站,可能每小时就会产生10G的数据量。
对于日志的这种规模的数据,用Hadoop进行日志分析,是适合不过的了。
课程大纲
1. Web日志分析概述
2. 需求分析:KPI指标设计
3. 算法模型:Hadoop并行算法
4. 架构设计:日志KPI系统架构
5. 程序开发1:用Maven构建Hadoop项目
6. 程序开发2:MapReduce程序实现
讲师介绍
张丹,前况客创始人/CTO,精通R/Java/Nodejs多种编程语言,10年以上IT编程背景,多项SUN及IBM技术认证。丰富互联网应用开发架构经验,著有《R的极客理想—工具篇》、《R的极客理想—高级开发篇》图书。
课程大纲-Hadoop实战教学视频---海量Web日志分析用Hadoop提取KPI指标
2
Hadoop并行算法并行算法包括以下几方面:PV(PageView): 页面访问量统计IP: 页面独立IP的访问量统计Time: 用户每小时PV的统计Source: 用户来源域名的统计Browser: 用户的访问设备统计
「仅限付费用户」点击下载“Hadoop-kpi.pdf”
[04:00]开始学习3
用Maven构建Hadoop项目构建系统,通过图表介绍了开发环境: Win7 64bit, Java 1.6.0_45,Maven3, Eclipse Juno Service Release 2。 Hadoop集群系统环境:Linux: Ubuntu 12.04.2 LTS 64bit Server, Java: 1.6.0_29, Hadoop: hadoop-1.0.3,单节点,IP:192.168.1.210
[11:23]开始学习4
程序开发:map, reduceMapReduce开发流程包括几方面:对”日志行”的解析,Map函数实现, Reduce函数实现, 启动程序实现。对map方法,reduce方法,启动方法,我们单独写一个类来实现下面将分别介绍MapReduce的实现类:– PV: org.conan.myhadoop.mr.kpi.KPIPV.java– IP: org.conan.myhadoop.mr.kpi.KPIIP.java– Time: org.conan.myhadoop.mr.kpi.KPITime.java– Browser: org.conan.myhadoop.mr.kpi.KPIBrowser.java
[14:12]开始学习6
独立IP统计KPIIP. JAVA程序开发通过独立IP统计 KPIIP.java,运行 KPIIP.java,访问设备统计KPIBrowser.java,运行 KPIBrowser.java,按时间段统计KPITime.java,运行 KPITime.java,Time的时间序列图,最终下载Time的统计结果。
[14:01]开始学习
“张丹”老师的其他课程更多+