当前位置：文江博客话题详情

检测并去除噪音文本

发布于 2024-09-01 13:32:46 字数 169 浏览 8 评论 0原文

给定一个包含大量数据的数据库表，删除噪音文本的最佳实践是什么，例如：

fghfghfghfg
qsdqsdqsd
rtyrtyrty

，噪音存储在“名称”字段中。

我正在研究具有 Java 标准结构的数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

末が日狂欢 2024-09-08 13:32:46

删除这样的东西并不像看起来那么容易。

对于我们人类来说，很容易看出“djkhfkjh”没有任何意义。但计算机如何检测这种噪音呢？它怎么知道“Eyjafjallajökull”只是有人砸键盘，或者是过去几年里最热闹的山？

如果没有很多误报，你就无法可靠地做到这一点，所以毕竟，它再次手动过滤误报和真报。

回复收藏 0 原文

淡写薰衣草的香 2024-09-08 13:32:46

那么，您可以使用 NLP 方法构建一个分类器，并根据噪声和非噪声的示例对其进行训练。您可以采用的一种情况是 Apache Tika 的语言检测器。如果语言检测器说“打败了我”，那可能就足够了。

回复收藏 0 原文

貪欢 2024-09-08 13:32:46

获取一本字典，其中包含尽可能多的名称，并过滤数据以显示字典中没有的名称。然后你必须一一删除它们，以确保你没有删除有效数据。
按名称对列表进行排序可以帮助您一次删除更多行。

回复收藏 0 原文

贱人配狗天长地久 2024-09-08 13:32:46

如果文本的其余部分是英语，您可以使用单词列表。如果文本中超过给定百分比（例如 50%）的单词不在单词列表中，则可能是噪音。

您可能需要设置一个阈值，例如 5 个单词，以防止删除“LOL”等帖子。

在大多数 Linux 安装上，您可以从拼写检查器 aspell 中提取单词列表，如下所示：

aspell --lang en dump master

If the rest of the text is English, you could use a word list. If more than a given percentage (say, 50%) of the words in the text are not in the word list, it is probably noise.

You may want to set a threshold of, say, 5 words, to prevent deleting posts like 'LOL'.

On most Linux installations, you can extract a word list from the spell checker aspell like this:

aspell --lang en dump master

回复收藏 0 原文

爱*していゐ 2024-09-08 13:32:46

您需要首先更有效地定义“噪音文本”。定义问题是这里的困难部分。你不能编写这样的代码：“去掉类似于 _____ 的字符串。”看起来您所识别的模式是“连续三个字符的一致集合，并且该集合至少重复一次，但可能无法干净地终止（它可能终止于集合中间的字符）”。

现在编写一个与该模式匹配的正则表达式，并测试它。

但我敢打赌您正在寻找其他模式......

回复收藏 0 原文

暗恋未遂 2024-09-08 13:32:46

检查每个单词，看看有多少冗余。如果有超过三个连续重复的字母组，则它是噪声的良好候选者。另外，查找通常不属于一起的字母组以及在键盘上也是连续的连续字母组。如果整个单词都是由键盘上相邻的字母组成的，那么它也会在噪音列表中占据一席之地。

回复收藏 0 原文

寂寞花火° 2024-09-08 13:32:46

训练 NLP 分类器可能是最好的方法。然而，更简单的方法可能是简单地检查每个单词是否存在于所有已知“有效”单词的列表中。大多数 Unix 系统都有一个名为 /usr/share/dict/words 的文件，您可以将其用于此目的。此外，Ubuntu 通过 /usr/share/dict/american-english、/usr/share/dict/american-huge 和 /usr/share/dict/american-insane 对此进行了扩展，每个列表都比上一个更全面。这些列表还包括许多常见的拼写错误，因此您不会过滤掉技术上不是单词但可以清楚地识别为单词的文本。

如果您确实雄心勃勃，则可以结合这些方法，并使用这些单词列表来训练贝叶斯或最大熵分类器。

回复收藏 0 原文