提取“有用”的内容句子中的信息？

发布于 2024-11-17 02:33:52 字数 536 浏览 1 评论 0原文

我目前正在尝试理解这种形式的句子：

问题更多是机顶盒而不是电视。重新启动机顶盒解决了问题。

我对自然语言处理完全陌生，并开始使用 Python 的 NLTK 包来亲自动手。但是，我想知道是否有人可以向我概述实现这一目标所涉及的高级步骤。

我想做的是确定问题所在，在这种情况下，机顶盒以及所采取的操作是否解决了问题，在这种情况下，是 code> 因为重新启动解决了问题。因此，如果所有句子都是这种形式，我的生活会更容易，但因为它是自然语言，所以句子也可以采用以下形式：

我看了看这辆车，发现没有任何问题。但是，我怀疑发动机有问题

所以在这种情况下，问题出在汽车上。由于存在“可疑”一词，所采取的操作并未解决问题。潜在的问题可能出在引擎上。

我并不是在寻找绝对的答案，因为我怀疑这非常复杂。我所寻找的更多的是一个高层次的概述，它将为我指明正确的方向。如果有更简单/替代的方法来做到这一点，也很受欢迎。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

筱果果 2024-11-24 02:33:52

实际上，您最希望的是朴素贝叶斯分类器具有足够大（可能比您拥有的）训练集，并且愿意容忍公平的错误判定率。

寻求 NLP 的圣杯必然会让你有些不满意。

回复收藏 0 原文

西瑶 2024-11-24 02:33:52

也许，如果句子格式良好，我会尝试依赖解析 (http:// nltk.googlecode.com/svn/trunk/doc/api/nltk.parse.malt.MaltParser-class.html#raw_parse）。这将为您提供句子成分的图表，您可以了解词汇项之间的关系。稍后，您可以从依赖解析器的输出中提取短语（http://nltk.googlecode.com/svn/trunk/doc/book/ch08.html#code-cfg2），这可以帮助您提取一个句子，或句子中的动词短语。

如果您只想从句子中获取短语或“块”，您可以尝试块解析器（http://nltk.googlecode.com/svn/trunk/doc/api/nltk.chunk-module.html）。您还可以进行命名实体识别（http://streamhacker.com/2009/02/23/chunk-extraction-with-nltk/）。它通常用于提取地点、组织或人名的实例，但它也适用于您的情况。

假设您解决了从句子中提取名词/动词短语的问题，您可能需要将它们过滤掉，以减轻领域专家的工作（太多的短语可能会让法官不知所措）。您可以对短语进行频率分析，删除通常与问题领域不相关的非常频繁的短语，或者编制白名单并保留包含预定义单词集的短语等。

回复收藏 0 原文

~没有更多了~