返回介绍

3.短句删除

发布于 2024-01-28 21:41:24 字数 937 浏览 0 评论 0 收藏 0

(1)短句删除的原因及思想

完成机械压缩去词处理后,则进行最后的预处理步骤:短句删除。虽然精简的辞藻在很多时候是一种比较良好的习惯,但是由语言的特点知道,从根本上说,字数越少所能够表达的意思就越少,要想表达一些相关的意思就一定要有相应量的字数,过少的字数的评论必然是没有任何有意义的评论,比如3个字,就只能表达诸如“很不错”“质量差”等。为此,就要删除掉过短的评论文本数据,以去除掉没有意义的评论,例如,

1)原本就过短的评论文本,如“很不错”。

2)经机械压缩去词处理后过短的评论文本,即原本为存在连续重复的且无意义的长文本,如“好好好好好好好好好好好好好好好好”。

(2)保留的评论的字数下限的确定

显然,短句删除最重要的环节就是保留的评论的字数下限的确定,这个没有精确的标准,可以结合特定语料来确定,一般4~8个国际字符都是较为合理的下限,在此处设定下限为7个国际字符,即经过前两步预处理后得到的语料若小于等于4个国际字符,则将该语料删去。

经过前两步的处理后,第三步(短句删除)的效果是比较明显的,可以看出该程序能过滤掉众多的垃圾信息。

15.2.3 文本评论分词

在中文中,只有字、句和段落能够通过明显的分界符进行简单的划界,而对于“词”和“词组”来说,它们的边界模糊,没有一个形式上的分界符。因此,进行中文文本挖掘时,首先应对文本分词,即将连续的字序列按照一定的规范重新组合成词序列的过程。

分词结果的准确性对后续文本挖掘算法有着不可忽视的影响,如果分词效果不佳,即使后续算法优秀也无法实现理想的效果。例如,在特征选择的过程中,不同的分词效果,将直接影响词语在文本中的重要性,从而影响特征的选择。

本文采用Python的中文分词包“jieba”(结巴分词),对TXT文档中的商品评论数据进行中文分词。“结巴分词”提供分词、词性标注、未登录词识别,支持用户词典等功能。经过相关测试,此系统的分词精度高达97%以上。为进一步进行词频统计,分词过程将词性标注作用去掉。

15.2.4 模型构建

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文