3.短句删除
(1)短句删除的原因及思想
完成机械压缩去词处理后,则进行最后的预处理步骤:短句删除。虽然精简的辞藻在很多时候是一种比较良好的习惯,但是由语言的特点知道,从根本上说,字数越少所能够表达的意思就越少,要想表达一些相关的意思就一定要有相应量的字数,过少的字数的评论必然是没有任何有意义的评论,比如3个字,就只能表达诸如“很不错”“质量差”等。为此,就要删除掉过短的评论文本数据,以去除掉没有意义的评论,例如,
1)原本就过短的评论文本,如“很不错”。
2)经机械压缩去词处理后过短的评论文本,即原本为存在连续重复的且无意义的长文本,如“好好好好好好好好好好好好好好好好”。
(2)保留的评论的字数下限的确定
显然,短句删除最重要的环节就是保留的评论的字数下限的确定,这个没有精确的标准,可以结合特定语料来确定,一般4~8个国际字符都是较为合理的下限,在此处设定下限为7个国际字符,即经过前两步预处理后得到的语料若小于等于4个国际字符,则将该语料删去。
经过前两步的处理后,第三步(短句删除)的效果是比较明显的,可以看出该程序能过滤掉众多的垃圾信息。
15.2.3 文本评论分词
在中文中,只有字、句和段落能够通过明显的分界符进行简单的划界,而对于“词”和“词组”来说,它们的边界模糊,没有一个形式上的分界符。因此,进行中文文本挖掘时,首先应对文本分词,即将连续的字序列按照一定的规范重新组合成词序列的过程。
分词结果的准确性对后续文本挖掘算法有着不可忽视的影响,如果分词效果不佳,即使后续算法优秀也无法实现理想的效果。例如,在特征选择的过程中,不同的分词效果,将直接影响词语在文本中的重要性,从而影响特征的选择。
本文采用Python的中文分词包“jieba”(结巴分词),对TXT文档中的商品评论数据进行中文分词。“结巴分词”提供分词、词性标注、未登录词识别,支持用户词典等功能。经过相关测试,此系统的分词精度高达97%以上。为进一步进行词频统计,分词过程将词性标注作用去掉。
15.2.4 模型构建
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论