当前位置：文江博客话题详情

是否有一种算法可以使用正则表达式并且仅使用正则表达式类型来查找“不使用”匹配项？

发布于 2024-11-27 18:05:13 字数 134 浏览 4 评论 0原文

我的意思是，是否有一种算法可以仅根据您想要的匹配类型自动查找匹配项。例如，给定“疾病”，是否有一种现代算法可能使用机器学习技术（我只是猜测）或任何其他技术来查找给定文本中的所有疾病名称？您认为如果没有正则表达式，这可以如何完成？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

苦妄 2024-12-04 18:05:13

基于主题的搜索充其量是不平凡的，尽管它很少使用正则表达式来完成（或者至少主要是正则表达式）。

对于基于主题的搜索，您通常使用看起来/行为（很奇怪）与垃圾邮件过滤器非常相似的东西。事实上，假设它使用纯贝叶斯模型，您可能会得到一个典型的垃圾邮件过滤器，将文档分类为（可能）与特定主题相关的文档和那些（可能）不相关的文档，只需通过使用正确的训练数据（即，不是基于垃圾邮件/非垃圾邮件进行训练，而是在本例中基于医疗/非医疗进行训练）。

不过，这实际上一次只适用于一个主题。您必须针对每个主题单独训练它。如果您想或多或少地同时管理多个主题，您可能需要查看诸如潜在语义索引之类的东西（更常用于机器学习类型的事物）。这将支持（例如）获取几千个文档，并将它们分成多个组，而不仅仅是那些与特定主题相关的组以及其他所有组。

根据您想要支持的搜索类型，还有自动关键字提取算法，但我不会尝试深入讨论这一点，因为尚不清楚您是否关心它。

由于有人提到使用正则表达式来处理不同形式的单词和拼写错误，我要补充一点，通常正则表达式通常不用于这些目的。有一些算法（例如，波特的词干分析器）专门用于删除后缀以获得（可能的）基本词。还有其他一些（例如编辑距离）更常用于处理拼写错误。

回复收藏 0 原文

~没有更多了~