当前位置：文江博客话题详情

分析文本（词形还原、编辑距离）

发布于 2024-10-29 11:37:06 字数 357 浏览 11 评论 0原文

我需要分析文本中是否存在禁用词。假设黑名单是单词：“禁止”。这个词有多种形式。在文本中，该词可以是例如：“禁止”、“禁止”、“禁止”。为了将单词转化为初始形式，我使用了词形还原过程。你的建议？

拼写错误怎么办？
例如：“F0rb1d”。我认为使用damerau-Levenshtein 或其他。你的建议？

如果文本写成如下：
“禁止信息。公司的私人信件。”或者 “F0rb1dden1nformation。私人对应的公司。” （是的，没有空格）

如何解决这个问题？
最好是快速算法，因为文本是实时处理的。
也许还有一些提高性能的技巧（如何存储等）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

攒眉千度 2024-11-05 11:37:06

据我所知，有两种可能的解决方案。

您可以尝试使用动态规划，LCS（最长公共子序列）。它将在原始文本中搜索所需的单词作为模式，我相信它是 O(mn):

http://en .wikipedia.org/wiki/Longest_common_subsequence_problem
http://www.ics.uci.edu/~eppstein/161/960229 .html

虽然使用文本搜索算法更容易。我知道的最好的是KMP，它的复杂度为O(n)。为了进行字符比较，您可以将它们分组为 {i I l(L) 1}、{o O 0} 等集合。但是您可以修改它以不匹配所有字母（禁止 -> 禁止）。

http://en.wikipedia.org/wiki/Knuth -Morris-Pratt_algorithm

所以现在您可以比较这两个算法和您的建议的优点。

回复收藏 0 原文

瞄了个咪的 2024-11-05 11:37:06

您还可以使用正则表达式匹配来检查单词。
http://www.c-sharpcorner.com/uploadfile/prasad_1/regexppsd12062005021717am /regexppsd.aspx

回复收藏 0 原文

~没有更多了~

关于作者

千仐

暂无简介

文章

26 人气

关注发私信

十二

文章 0 评论 0

关注

飞烟轻若梦

文章 0 评论 0

关注

OPleyuhuo

文章 0 评论 0

关注

wxb0109

文章 0 评论 0

关注

旧城空念

文章 0 评论 0

关注

-小熊_

文章 0 评论 0

友情链接

文江博客

分析文本（词形还原、编辑距离）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者