欢迎光临
我们一直在努力

大数据技术之Hadoop(十一)——网站流量日志数据分析系统-顾好发帖网

目录

素材

一、模块开发——数据预处理

1、分析预处理的数据

2、实现数据的预处理

(1)创建Maven项目,添加相关依赖

(2)创建JavaBean对象,封装日志记录

(3)创建MapReduce程序,执行数据预处理

 二、模块开发——数据仓库开发

1、上传文件

2、实现数据仓库

三、模块开发——数据分析

 四、模块开发——数据导出

五、模块开发——日志分析系统报表展示

1、搭建日志分析系统

(1)创建项目,添加相关依赖

(2)编写配置文件

2、实现报表功能展示

(1)创建持久化类

(2)实现DAO层

(3)实现Service层

(4)实现Controller层

(5)实现页面功能

3、系统功能模块展示

​编辑

参考书籍


        在收集的日志文件中,通常情况下,不能直接将日志文件进行数据分析,这是因为日志文件中有许多不合法的数据(比如日志数据在网络传输过程中发送数据丢失)。

        在数据预处理阶段,主要目的就是对收集的原始数据进行清洗和筛选,因此使用MapReduce 技术就可以轻松实现。在实际开发中,数据预处理过程通常不会直接将不合法的数据直接删除,而是对每条数据添加标识字段,从而避免其他业务使用时丢失数据。

        另外,此次数据预处理只是清洗和筛选不合法的数据信息,会读取每行日志文件数据并最终输出一条数据,不会进行其他操作,因此在使用MapReduce技术进行处理过程中,只会涉及 Map 阶段,不会涉及Reduce 阶段。在默认情况下,ReduceTask值为1,因此在主运行函数中,需要设置 Job.setNumReduceTasks(0)。

(1)创建Maven项目,添加相关依赖

pom.xml文件配置如下


(2)创建JavaBean对象,封装日志记录

        收集的日志数据中,每一行代表一条日志记录,并且包含有多个用空格分隔的字段信息,为了方便后续数据处理,创建一个 JavaBean 对象对每条数据进行封装。

WebLogBean.java


(3)创建MapReduce程序,执行数据预处理

        创建 JavaBean 实体类后,接下来开始编写 MapReduce 程序,进行数据预处理。

WebLogPreProcess.java


WebLogParser.java


运行结果

在启动了Hadoop的Linux系统root目录下创建目录weblog,并将预处理产生的结果文件上传到 weblog 目录下。


在HDFS上创建目录,用于存放预处理过的数据,并上传数据到HDFS。



 



(1)创建项目,添加相关依赖

        创建一个Java Web 框架的Maven工程

pom.xml


(2)编写配置文件

applicationContext.xml


db.properties


springmvc.xml


web.xml


 SqlMapConfig.xml


(1)创建持久化类

TAvgpvNum.java


AvgToPageBean.java


(2)实现DAO层

TAvgpvNumMapper.java


TAvgpvNumMapper.xml


(3)实现Service层

AvgPvService.java


AvgPvServiceImpl.java


(4)实现Controller层

IndexController.java


(5)实现页面功能

index.jsp



《Hadoop大数据技术原理与应用》

 

 

未经允许不得转载:顾好网 » 大数据技术之Hadoop(十一)——网站流量日志数据分析系统-顾好发帖网

评论 抢沙发

顾好网

生活百科,情感交流,微商知识,seo资讯,养生知识,汽车知识等

登录

找回密码

注册