2.基于语义网络的评论分析
本节使用语义网络分析对评论进行进一步的分析,包括各产品独有优势、各产品抱怨点以及顾客购买原因等,并结合以上分析对品牌产品的改进提出建议。
这一部分主要通过对3种品牌型号的好、差评文本数据生成的语义网络图,结合共词矩阵以及评论定向筛选回查来完成对评论的分析。
(1)语义网络的概念、结构与构建本质
语义网络是由R.F.Simon提出的用于理解自然语言并获取认知的概念,是一种语言的概念及关系的表达。语义网络实际上就是一幅有向网络图,举例如图15-10所示。
图15-10 语义网络举例示意图
节点中的物体可以是各种用文字所表达的事物,而节点之间的有向弧则被用以表达节点之间的语言意义上的关系,其中的弧的方向是语言关系的因果指向。例如,A指向B就意味着A与B有语言关系牵连且A与B分别是语义复杂关系的主动方与从动方。当然,这种用语言意义上的关系往往是复杂的。以上图为例,由于是一名酒鬼,那么他或她就经常会在特定情况之下(诸如朋友聚会、婚宴等)暴饮;一个人因受到各种挫折而显得的悲伤,长期的悲伤无法释怀,只能通过借酒浇愁,就可能会成为酒鬼。这些都是些复杂的关系。
虽然每一个语义网络结构中事物(节点)之间的关系是复杂的,但是从本质上看,语义网络的每一道弧的形成就是由于这种语义关系的存在。不同的用词表达的特定事物之间就是因为存在千丝万缕的联系,才会形成一个个的语义网络。
(2)基于语义网络进行评论分析的优势
从前面的论述中我们可知道,要想对中文的热水器评论进行合理的分析,必须要采取的一项措施就是分词,因为计算机不可能像人一样去识别每一个整句的语义,不能直接识别语句的整体结构思想。但是,分词又会使得语句的整体结构变得凌乱,因此对分词后的语句直接进行诸如产品差异等复杂的分析就不合实际,所以必须采取方法尽可能将这种原已凌乱关系重新整合起来,使得复杂的分析重新变为可能。建立起事物之间(这里分出的每一个词料代表一项事物)的语义网络关系就能够使得原已凌乱的关系得以整合,特别是那些可以连成通顺语料的词语的关系(即连接“因果”关系)的重新整合,而这种关系的成功重建能够清晰地还原语料中所反映出来的许多内容,特别是单独的词语无法清晰表达相应的情况的时候,例如,“安装”与“方便”分开的时候,任何一方都不能清晰表达相关的情况,单独一个“安装”可以表达很多的东西,可以是“安装很容易”,也可以是“有师傅上门帮忙安装”,还可以是“安装要收手续费”等;而单独一个“方便”也可以表达很多的东西,可以是“使用十分方便”,也可以是“商品签收方便快捷”,还可以是“交款方式方便简易”等,但是如果“安装”和“方便”通过语义网络方式连接起来,如图15-11所示,就可以清晰地反映出是相关热水器产品在安装的时候比较便利。再如“热水”与“不足”也是这样的情况,此处就不再赘述。
图15-11 “安装”和“方便”的语义网络连接示意图
当这种语义网络建立起来后,就可以借助它进行各种各样的特定的分析,特别是在判断特定产品优点、抽取各品牌的顾客关注点等方面具有一定的优势。以判断特定产品优点为例,如果某种产品相对于其他产品具有某种特定的优势,那么由该种商品的正面评论形成的语义网络上就会生成与其他产品正面评论形成的语义网络不一样的且蕴含着这种优势的关系连接,通过可视化,就能够从中抽取出来。
(3)基于语义网络进行评论分析的前期步骤与解释
进行语义网络分析,实际上所需要的前期步骤就是在二分类文本情感分析的基础上进行增添,语义网络的分析之所以要以二分类文本情感分析的结果为基础,在于正面的以及负面的评论大多都会具有不同的语意结构,且对于同一商品而言,正面以及负面的评论关注的点是不完全一样的,信息也是不完全一样的,正面以及负面评论之间是存在逻辑冲突的。而这种正面、负面评论的分割需要用到情感分析的技术。具体前期步骤如下。
1)数据预处理、分词以及对停用词的过滤。
2)进行情感倾向性分析,并将评论数据分割成正面(好评)、负面(差评)、中性(中评)3大组。
3)抽取正面(好评)、负面(差评)两组,以进行语义网络的构建与分析。
第一步可以直接按照原有的流程来进行,第三步的抽取只需要在第二步分成的三组结果中抽取即可,不对中性评论进行分析是因为中性评论往往携带着比较复杂的信息,难以对细节进行倾向性提取。
而第二步的情感倾向性分析并将评论数据分类可以在原有的情感分析工作基础上做出修改来完成,但是在此处使用ROSTCM6来完成该项操作。ROST系统是由武汉大学开发的一款免费反剽窃系统(ROSTCM6全称为ROST Content Mining System(Version 6.0)),可用以检测论文是否抄袭;同时ROST系统又是一款大型的免费用于社会计算的软件,可以用来实现多种类型的分析,包括情感倾向性分析以及后面将要进行语义网络的构建等。之所以使用ROSTCM6来完成情感分析,是因为ROSTCM6软件的情感倾向性分析使用的是基于优化的情感词典的方法,目前来讲,其准确率会比基于词向量以及基于神经网络的情感分析方法的正确率高,而前述用于情感倾向性分析的方法是基于词向量以及基于神经网络的情感倾向性分析方法。另外,受限于现今中文分词技术的缺陷以及评论本身的特性,能够通过中文评论所挖掘出来的内容还是偏少的,因此对情感倾向性分析的正确率要求就更高。当需要以此为基础进一步分析的时候,就需要利用基于情感词典的方法。第二步的具体流程如下。
单击“功能性分析”项,再单击“情感分析”菜单,然后将待分析的文件地址输入“待分析文件路径”对应框内,单击“分析”选项就得到了情感倾向性分析的结果,三种情感倾向被放入3个不同的TXT文件内。操作步骤如图15-12所示。
图15-12 ROSTCM6实现情感倾向性分析的步骤示意图
这3步完成后,便可以开始进行语义网络分析。
(4)基于语义网络进行评论分析的实现过程
要进行语义网络分析,首先要分别对两大组重新进行分词处理,并提取出高频词(为了实现更好的分词效果,在分词词典中引入更多的词汇)。因为只有高频词之间的语义联系才是真正有意义的,个性化词语间关系不具代表性。然后在此基础上过滤掉无意义的成分,减少分析干扰。最后再抽取行特征,处理完后便可进行两组的语义网络的构建。
利用软件ROSTCM6来完成这一部分及语义网络构建的操作。打开ROSTCM6软件,单击“功能性分析”选项,再单击“社会网络与语义网络分析”菜单,便得到社会网络与语义网络分析的界面,如图15-13所示。
图15-13 ROSTCM6实现语义网络构建的步骤示意图
将分好的好、差评两个文本文档中的好评文档的地址输入“待处理文件”对应框内,并单击“提取高频词”“过滤无意义词”以及“提取行特征”按钮,这样便完成了对应的操作,系统还会自动生成对应的处理后的文件。在此之后,依次单击“构建网络”与“启动NetDraw”按钮,就可得到好评文档的语义网络图(其生成的语义网络图可能不便观察,可以移动NetDraw生成的语义网络结果中的节点以增强该网络的可读性),为了方便分析,再单击“构建矩阵”按钮,形成被挑选出的节点词的矩阵词表,该操作会生成一个xls文件。完成好评文档的语义网络图的构建后再对差评文档进行同样的操作,将得到相应的语义网络图。3种牌子3种型号对应就会有6个好评文档及差评文档,对应就会生成6个语义网络图,并以此为基础,结合共词矩阵(可在语义网络生成后再单击“构建矩阵”形成)与评论定向筛选回查,便可进行相关评论分析。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论