返回介绍

15.2 分析方法与过程

发布于 2024-01-28 21:41:24 字数 2987 浏览 0 评论 0 收藏 0

本次建模针对京东商城上“美的”品牌的热水器的消费者的文本评论数据,在对文本进行基本的机器预处理、中文分词、停用词过滤后,通过建立包括栈式自编码深度学习、语义网络与LDA主题模型等多种数据挖掘模型,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析,以期望得到有价值的内在内容。

图15-1为电商产品评论数据情感分析流程,主要包括以下步骤[1]

图15-1 电商产品评论数据情感分析流程

1)利用爬虫工具——八爪鱼采集器,对京东商城进行热水器评论的数据采集。

2)对获取的数据进行基本的处理操作,包括数据预处理、中文分词、停用词过滤等操作。

3)文本评论数据经过处理后,运用多种手段对评论数据进行多方面的分析。

4)从对应结果的分析中获取文本评论数据中有价值的内容。

15.2.1 评论数据采集

要分析电商平台的热水器评论数据,需要先对评论数据进行采集,对比多种网络爬虫工具后,发现八爪鱼采集器属于“易用型”,它主要通过模仿用户的网页操作进行数据采集,只需指定数据采集逻辑和可视化选择采集的数据,即可完成采集规则的制定。因此,在案例的网页数据抓取工具选择的是八爪鱼采集器。

首先在八爪鱼采集器中新建任务,设置打开页面为“http://list.jd.com/list.html?cat=737%2C794%2C1706&ev=998_28702%40&page=1&JL=3_产品类型_电热水器”,页面如图15-2所示。

由于热水器下有多种产品,而且呈分页显示,所以抓取数据时需要制定翻页循环列表,再单击每个产品,进入产品的详细页面,如图15-3所示。

在本页面下需要抓取产品的名称,价格和评论信息。评论信息可见产品详细页面的下方,如图15-4所示,这里需要采集的有用户评论、评论时间、购买信息和用户名。同时,由于评论是多页显示,也需要制定翻页循环列表,循环抓取每页评论信息。

图15-2 热水器列表页面

图15-3 产品的详细页面

图15-4 产品评论

经过以上分析,可在八爪鱼采集器中设计出流程,如图15-5所示,进行单机采集后得到结果截图如图15-6所示。

图15-5 流程设计

图15-6 评论采集结果

对采集到的评论数据进行处理,得到原始文本的评论数据,如表15-1所示。

表15-1 原始评论文本

数据详见:01-示例数据/汇总-京东.xlsx

再将品牌为“美的”的“评论”一列抽取,另存为“\data\meidi_jd.txt”,编码为UTF-8。评论抽取的代码如代码清单15-1所示。

代码清单15-1 评论抽取代码

#-*- coding: utf-8 -*-
import pandas as pd
inputfile = '../data/huizong.csv' #评论汇总文件
outputfile = '../data/meidi_jd.txt' #评论提取后保存路径
data = pd.read_csv(inputfile, encoding = 'utf-8')
data = data[[u'评论']][data[u'品牌'] == u'美的']
data.to_csv(outputfile, index = False, header = False)

代码详见:demo/code/excel2txt.py

15.2.2 评论预处理

取到文本后,首先要进行文本评论数据的预处理。文本评论数据里存在大量价值含量很低甚至没有价值含量的条目,如果将这些评论数据也引入进行分词、词频统计乃至情感分析等,必然会对分析造成很大的影响,得到的结果的质量也必然是存在问题的。那么,在利用到这些文本评论数据之前就必须先进行文本预处理,把大量的此类无价值含量的评论去除。

文本评论数据的预处理主要由3个部分组成:文本去重、机械压缩去词以及短句删除。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文