15.2 分析方法与过程
本次建模针对京东商城上“美的”品牌的热水器的消费者的文本评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期望得到有价值的内在内容。
图15-1为电商产品评论数据情感分析流程,主要包括以下步骤[1]。
图15-1 电商产品评论数据情感分析流程
1)利用爬虫工具——八爪鱼采集器,对京东商城进行热水器评论的数据采集。
2)对获取的数据进行基本的处理操作,包括数据预处理、中文分词、停用词过滤等操作。
3)文本评论数据经过处理后,运用多种手段对评论数据进行多方面的分析。
4)从对应结果的分析中获取文本评论数据中有价值的内容。
15.2.1 评论数据采集
要分析电商平台的热水器评论数据,需要先对评论数据进行采集,对比多种网络爬虫工具后,发现八爪鱼采集器属于“易用型”,它主要通过模仿用户的网页操作进行数据采集,只需指定数据采集逻辑和可视化选择采集的数据,即可完成采集规则的制定。因此,在案例的网页数据抓取工具选择的是八爪鱼采集器。
首先在八爪鱼采集器中新建任务,设置打开页面为“http://list.jd.com/list.html?cat=737%2C794%2C1706&ev=998_28702%40&page=1&JL=3_产品类型_电热水器”,页面如图15-2所示。
由于热水器下有多种产品,而且呈分页显示,所以抓取数据时需要制定翻页循环列表,再单击每个产品,进入产品的详细页面,如图15-3所示。
在本页面下需要抓取产品的名称,价格和评论信息。评论信息可见产品详细页面的下方,如图15-4所示,这里需要采集的有用户评论、评论时间、购买信息和用户名。同时,由于评论是多页显示,也需要制定翻页循环列表,循环抓取每页评论信息。
图15-2 热水器列表页面
图15-3 产品的详细页面
图15-4 产品评论
经过以上分析,可在八爪鱼采集器中设计出流程,如图15-5所示,进行单机采集后得到结果截图如图15-6所示。
图15-5 流程设计
图15-6 评论采集结果
对采集到的评论数据进行处理,得到原始文本的评论数据,如表15-1所示。
表15-1 原始评论文本
数据详见:01-示例数据/汇总-京东.xlsx
再将品牌为“美的”的“评论”一列抽取,另存为“\data\meidi_jd.txt”,编码为UTF-8。评论抽取的代码如代码清单15-1所示。
代码清单15-1 评论抽取代码
#-*- coding: utf-8 -*- import pandas as pd inputfile = '../data/huizong.csv' #评论汇总文件 outputfile = '../data/meidi_jd.txt' #评论提取后保存路径 data = pd.read_csv(inputfile, encoding = 'utf-8') data = data[[u'评论']][data[u'品牌'] == u'美的'] data.to_csv(outputfile, index = False, header = False)
代码详见:demo/code/excel2txt.py
15.2.2 评论预处理
取到文本后,首先要进行文本评论数据的预处理。文本评论数据里存在大量价值含量很低甚至没有价值含量的条目,如果将这些评论数据也引入进行分词、词频统计乃至情感分析等,必然会对分析造成很大的影响,得到的结果的质量也必然是存在问题的。那么,在利用到这些文本评论数据之前就必须先进行文本预处理,把大量的此类无价值含量的评论去除。
文本评论数据的预处理主要由3个部分组成:文本去重、机械压缩去词以及短句删除。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论