当前位置：文江博客话题详情

组合词的自然语言处理修复

发布于 2024-10-22 07:56:28 字数 236 浏览 5 评论 0原文

我有一些由另一个系统生成的文本。它将一些单词组合在一起，我认为这是某种自动换行的副产品。所以像“thedog”这样简单的东西被组合成“thedog”。

我检查了 ascii 和 unicode 字符串，看看其中是否有一些看不见的字符，但确实没有。一个令人困惑的问题是，这是医学文本，并且没有可供检查的语料库。因此，真实的例子是“...排除 SARS 与肺炎的测试”最终变成“...与肺炎”。

有人对寻找和分离这些有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

失而复得 2024-10-29 07:56:28

您可能对此感兴趣 http://www.perlmonks.org/?node_id=336331

您可以通过使用两本词典来利用文本的医学性质，一本仅包含医学术语，另一本包含通用英语。

如果您可以分离出医学单词，然后根据普通词典运行字符串的其余部分，您应该会得到一些不错的结果。

回复收藏 0 原文

半﹌身腐败 2024-10-29 07:56:28

这是一个相当棘手的问题。

我可能会说组合方法是你最好的选择。

搜索“拼写错误的单词”
对于其中的每一个，检查是否有某种字典单词组合可以组成它。由于步骤 4，您可以假设一个单词仅由两个单词组成
2.1.如果找到匹配项，请与人工确认。
如果没有匹配，请人类说“这是一个你没有的真实单词”，或者“这是更正”

这几乎是拼写检查的高级形式。你可以让它更加自动化，但我不会在这么重要的事情上冒险。

或者，您可以寻找中断发生时的模式。因此，例如，如果每第 n 个应该是空格的字符不是空格，则可以修复该问题。

回复收藏 0 原文

趁年轻赶紧闹 2024-10-29 07:56:28

这就是我所做的。我结合了几个想法，并使用通用的引导方法提出了一个非常好的解决方案。我使用 Python 来完成这一切。

获取报告样本，对所有单词进行标记并创建频率表。
对于频率为 3 或以下的单词（频率为 4 或以上被认为足够常见且正确），我使用 PyEnchant 包（附魔库）对它们进行拼写检查，
在步骤 2 中根据“拼写错误”的单词构建了医学词典，那是临床的。
对于所有报告，
为频率低于 4 的单词创建了一个频率表，我使用 PyEnchant 和我的医学词典对每个单词进行了拼写检查，
取出每个拼写错误的单词，并以所有可能的方式拆分它们。测试这些拆分是否能创建 2 个拼写正确的单词。保留任何成功的分割
对于每个潜在的解决方案，使用最高权重的解决方案。

回复收藏 0 原文

~没有更多了~

关于作者

卸妝后依然美

暂无简介

0 文章

0 评论

480 人气

关注发私信

daid

文章 0 评论 0

关注

我心依旧

文章 0 评论 0

关注

晒暮凉

文章 0 评论 0

关注

微信用户

文章 0 评论 0

关注

DS

文章 0 评论 0

关注

〆凄凉。

文章 0 评论 0

友情链接

文江博客

组合词的自然语言处理修复

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

daid

我心依旧

晒暮凉

微信用户

DS

〆凄凉。

友情链接

组合词的自然语言处理修复

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

daid

我心依旧

晒暮凉

微信用户

DS

〆凄凉。

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。