文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
12.4 拓展思考
本例中主要分析的内容为婚姻知识类别与婚姻咨询类别的有关记录,其结果比目前网页上基于关键词的推荐发散性要强,取到一个互补的效果。但由于目前公司主营业务侧重于咨询方面,且在探索分析的环节可以看出咨询记录占整个记录里的50%左右,因此对于咨询类别的页面的推荐需要进一步改造,其数据可以从用户访问的原始数据中提取,见表12-34。
表12-34 原始数据
数据详见:demo/data/7law.sql
首先需要解决冷启动问题,当新的用户产生,如何对其进行推荐?然后在进行相似度设计的过程中未考虑到对热门网址的处理以及那些无法得到推荐结果的网页。由于在原始数据中,每个网页都存在一个标题,可以通过采用文本挖掘的分析方法。通过文本挖掘,找出每个网页文本中的隐含语义,然后通过分析文本中隐含特征,将用户与物品联系在一起,相关的名称有LSI、pLSA、LDA和Topic Model。当然,也可以通过这种方法提取出关键字,通过tf-idf的方法对其关键字进行定义权重,然后采用最近邻的方法求出那些无法得到推荐列表的结果。因此,针对本例的数据,可以采用隐语义模型实现推荐,同样采用离线的方法对其进行测试,然后对比各种推荐方法的评价指标,最后将各种推荐结果进行结合。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论