文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
3.实验方法与步骤
实验一
1)打开Python软件,仿照excel2txt.py脚本输入命令。
2)使用readLines()函数读取数据,并筛选出某个品牌的评论,保存成文本文件(编码统一用UTF-8,下同)。
依次编写clean_same.py函数和clean_prefix.py函数。
clean_prefix.py函数对于各个类别的评分进行删除。
3)编写并运行程序后,与之前的对比、观察预处理后的效果。
实验二
1)利用ROSTCM6将预处理后的文本一分为二(只保留正面评价和负面评价)。
打开ROSTCM6软件,选择“功能性分析”——“情感分析”。
在“待分析文件路径”中选择预处理后的文件路径,单击“分析”。
将得到的正面评价和负面评价文本另存为到“\test\data\”目录下,并将编码改回UTF-8(而非unicode)。
编写clean_prefix.py代码,运用正则表达式将上述两个文本的前缀评分和空格去除,并保存为meidi_jd_pos.txt和meidi_jd_pos.txt文本。
2)利用jieba模块分别对上述所得的两个文本做分词,为达到更好的分词效果,添加自定义词典myDict.txt(在\data中),可以尝试往myDict.txt中自定义编辑添加词组。
3)编写LDA.py代码,分别对meidi_jd_pos_cut.txt和meidi_jd_pos_cut.txt文本运行,分析产品的优点和不足。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论