文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

2.机械压缩去词

发布于 2024-01-28 21:41:24 字数 3506 浏览 0 评论 0 收藏 0

（1）机械压缩去词的思想

由于电商品牌的文本评论数据质量参差不齐，没有意义的文本数据很多，因此通过文本去重就已经可以删除掉非常多的没有意义的评论文本。但是文本去重还远远不够，经过文本去重后的评论仍然有很多评论需要处理掉，例如，

“非常好非常好非常好非常好非常好非常好非常好”

以及

“好呀好呀好呀好呀好呀好呀好呀好呀好呀”。

这一类是存在连续重复的语料，也是最常见的较长的无意义语料。因为大多数给出无意义评论的人都只是为了获得一些额外奖励，并不对评论真正抱有兴趣，而他们为了省事就很可能进行这样的评论。显然这一类语料并不会重复，但是也是毫无意义的评论，是需要删除的。

可惜的是，计算机不可能自动识别出所有的这种类型的语料，比如“非常好”可以有从1到无上限的有穷个的叠加，即使运用词典透过某些方式识别了这一类的文本评论数据，比如算出“非常好”比较多意味着可能是无意义评论，一位制造无意义评论的顾客还可以以任何一个词进行重复，还可以重复某词，但次数不一定多，而这种显然只需要保留第一个即可，若不处理，可能会影响情感倾向的判断，例如：

“15分钟就出热水了，感觉还不错，但是安装费实在是太贵太贵太贵太贵”

与

“15分钟就出热水了，感觉还不错，但是安装费实在是太贵太贵太贵”

是没有差别的，但是若不处理，就会出现差别。

因此，就需要对语料进行机械压缩去词处理，也就是说要去掉一些连续重复累赘的表达，例如把：

“哈哈哈哈哈哈哈哈哈哈哈”

缩成

“哈”

不过这样仍然会保留无意义的评论（比如上述的评论），但是这些评论在经过这步处理后，在最后一个预处理环节：短句删除环节就会被去除掉。当然，机械压缩去词法不能像分词那样去识别词语。

（2）机械压缩去词处理的语料结构

机械压缩去词实际上要处理的语料就是语料中有连续累赘重复的部分，从一般的评论偏好角度来讲，一般人制造无意义的连续重复只会在开头或者结尾进行，例如：

“为什么为什么为什么安装费这么贵，毫无道理！”

以及

“真的很好好好好好好好好”

等，而中间的连续重复虽然也有，但是非常少见（中间重复在输入上显得麻烦，无意义评论本就为了随意了事），而且中间容易有成语的问题，例如：

“安装师傅滔滔不绝的向我阐述这款热水器有多好”

这种语料显然在去掉一个“滔”字后肯定就会出现问题，因此只对开头以及结尾的连续重复进行机械压缩去词的处理。

（3）机械压缩去词处理过程的连续累赘重复的判断及压缩规则的阐述

连续累赘重复的判断可通过建立两个存放国际字符的列表来完成，先放第一个列表，再放第二个列表，一个个读取国际字符，并按照不同情况，将其放入带第一或第二个列表或触发压缩判断，若得出重复（及列表1与列表2有意义的部分完全一对一相同）则压缩去除，这样当然就要有相关的放置判断及压缩规则。在进行机械压缩去词处理的连续累赘重复的判断及压缩规则设定的时候，必然要考虑到词法结构的问题。综合文字表达特点，设定如下7条规则（说明：1）这里为了初始化列表而放入的空格不算输入了国际字符；2）由于批量的评论中可能会存在某些评论无法识别，因此在进行这一步时需要结合运行进程人工删除一些无法识别语句）。

规则1：如果读入的字符与第一个列表的第一个字符相同，而第二个列表没有任何放入的国际字符，则将这个字符放入第二个列表中。

解释：因为一般情况下同一个字再次出现时大多数都是意味着上一个词或是一个语段的结束以及下一个词或下一个语段的开始，举例如下。