3.网页排名
由分析目标可知,个性化推荐主要针对以html为后缀的网页(与物品的概念类似)。从原始数据中统计以html为后缀的网页的点击率,其点击率排名的结果见表12-13。从表中可以看出,点击次数排名前20名中,“法规专题”占了大部分,其次是“知识”,然后是“咨询”。但是,从前面分析的结果中可知,原始数据中与咨询主题相关的记录占了大部分。在其html后缀的网页排名中,“专题与知识”的占了大部分。通过对业务了解,专题是属于知识大类里的一个小类。在统计以html为后缀的网页点击排名,出现这种现象的原因见表12-14。其中,知识页面相对咨询的页面要少很多,当大量的用户在浏览咨询页面时,呈现一种比较分散的浏览次数,即其各个页面点击率不高,但是其总的浏览量高于知识。所以造成网页排名中咨询方面的排名比较低。
表12-13 点击率排名表
表12-14 类型点击数
从原始html的点击率排行榜中可以发现如下情况,排行榜中存在这样两种类似的网址“http://www.****.com/info/hunyin/lhlawlhxy/20110707137693_2.html”和“http://www.****.com/info/hunyin/lhlawlhxy/20110707137693.html”。通过访问其网址,发现两者属于同一网页,但由于系统在记录用户的访问网址的信息时会将其记录在数据中。因此,在用户访问网址的数据中存在这些翻页的情况,针对这些翻页的网页进行统计,结果见表12-15。
表12-15 翻页网页统计表
通过了解业务,同一网页中登录次数最多都是从外部搜索引擎直接搜索到的网页。对其中的浏览翻页的情况进行分析,平均大概60%~80%的人会选择看下一页,基本每一页都会丢失20%~40%的点击率。同时,对知识类型网页进行检查,发现页面上并无全页显示功能,但是知识页面中大部分都存在翻页的情况。这样就造成了大量的用户基本选择浏览2~5页后,很少会选择浏览完全部的内容。因此,用户就会直接就放弃此次的搜索,从而增加网站的跳出率,降低了客户的满意度,不利于企业的长期稳定发展。
12.2.3 数据预处理
本案例在原始数据的探索分析的基础上,发现与分析目标无关或模型需要处理的数据,针对此类数据进行处理。其中涉及的数据处理方式有:数据清洗、数据集成和数据变换。通过这几类的处理方式,将原始数据处理成模型需要的输入数据,其数据处理流程图如图12-6所示。
图12-6 数据处理流程图
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论