大数据技术之Hadoop(十一)——网站流量日志数据分析系统-顾好发帖网-顾好网

素材：

一、模块开发——数据预处理

1、分析预处理的数据

2、实现数据的预处理

（1）创建Maven项目，添加相关依赖

（2）创建JavaBean对象，封装日志记录

（3）创建MapReduce程序，执行数据预处理

二、模块开发——数据仓库开发

1、上传文件

2、实现数据仓库

三、模块开发——数据分析

四、模块开发——数据导出

五、模块开发——日志分析系统报表展示

1、搭建日志分析系统

（1）创建项目，添加相关依赖

（2）编写配置文件

2、实现报表功能展示

（1）创建持久化类

（2）实现DAO层

（3）实现Service层

（4）实现Controller层

（5）实现页面功能

3、系统功能模块展示

编辑

参考书籍：

在收集的日志文件中，通常情况下，不能直接将日志文件进行数据分析，这是因为日志文件中有许多不合法的数据(比如日志数据在网络传输过程中发送数据丢失)。

在数据预处理阶段,主要目的就是对收集的原始数据进行清洗和筛选，因此使用MapReduce 技术就可以轻松实现。在实际开发中，数据预处理过程通常不会直接将不合法的数据直接删除，而是对每条数据添加标识字段，从而避免其他业务使用时丢失数据。

另外,此次数据预处理只是清洗和筛选不合法的数据信息，会读取每行日志文件数据并最终输出一条数据，不会进行其他操作，因此在使用MapReduce技术进行处理过程中，只会涉及 Map 阶段，不会涉及Reduce 阶段。在默认情况下，ReduceTask值为1，因此在主运行函数中，需要设置 Job.setNumReduceTasks(0)。

（1）创建Maven项目，添加相关依赖

pom.xml文件配置如下：

（2）创建JavaBean对象，封装日志记录

收集的日志数据中，每一行代表一条日志记录，并且包含有多个用空格分隔的字段信息，为了方便后续数据处理，创建一个 JavaBean 对象对每条数据进行封装。

WebLogBean.java

（3）创建MapReduce程序，执行数据预处理

创建 JavaBean 实体类后，接下来开始编写 MapReduce 程序，进行数据预处理。

WebLogPreProcess.java

WebLogParser.java

运行结果：

在启动了Hadoop的Linux系统root目录下创建目录weblog，并将预处理产生的结果文件上传到 weblog 目录下。

在HDFS上创建目录，用于存放预处理过的数据，并上传数据到HDFS。

（1）创建项目，添加相关依赖

创建一个Java Web 框架的Maven工程

pom.xml

（2）编写配置文件

applicationContext.xml

db.properties

springmvc.xml

web.xml

SqlMapConfig.xml

（1）创建持久化类

TAvgpvNum.java

AvgToPageBean.java

（2）实现DAO层

TAvgpvNumMapper.java

TAvgpvNumMapper.xml

（3）实现Service层

AvgPvService.java

AvgPvServiceImpl.java

（4）实现Controller层

IndexController.java

（5）实现页面功能

index.jsp

《Hadoop大数据技术原理与应用》

大数据技术之Hadoop(十一)——网站流量日志数据分析系统-顾好发帖网

相关推荐

评论抢沙发

顾好网

生活百科,情感交流,微商知识,seo资讯,养生知识,汽车知识等

切换注册登录

切换登录注册

相关推荐

评论 抢沙发

顾好网

生活百科,情感交流,微商知识,seo资讯,养生知识,汽车知识等

切换注册登录

切换登录注册

评论抢沙发