文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

3.短句删除

发布于 2024-01-28 21:41:24 字数 937 浏览 0 评论 0 收藏 0

（1）短句删除的原因及思想

完成机械压缩去词处理后，则进行最后的预处理步骤：短句删除。虽然精简的辞藻在很多时候是一种比较良好的习惯，但是由语言的特点知道，从根本上说，字数越少所能够表达的意思就越少，要想表达一些相关的意思就一定要有相应量的字数，过少的字数的评论必然是没有任何有意义的评论，比如3个字，就只能表达诸如“很不错”“质量差”等。为此，就要删除掉过短的评论文本数据，以去除掉没有意义的评论，例如，

1）原本就过短的评论文本，如“很不错”。

2）经机械压缩去词处理后过短的评论文本，即原本为存在连续重复的且无意义的长文本，如“好好好好好好好好好好好好好好好好”。

（2）保留的评论的字数下限的确定

显然，短句删除最重要的环节就是保留的评论的字数下限的确定，这个没有精确的标准，可以结合特定语料来确定，一般4~8个国际字符都是较为合理的下限，在此处设定下限为7个国际字符，即经过前两步预处理后得到的语料若小于等于4个国际字符，则将该语料删去。

经过前两步的处理后，第三步（短句删除）的效果是比较明显的，可以看出该程序能过滤掉众多的垃圾信息。