当前位置：文江博客话题详情

使用 NLP 进行句子检测

发布于 2024-12-20 21:05:40 字数 324 浏览 2 评论 0原文

我正在尝试从大量文本中解析出句子。使用 java 我开始使用 OpenNLP 和斯坦福大学的 Parser 等 NLP 工具。

但这就是我陷入困境的地方。尽管这两个解析器都非常出色，但在处理非统一文本时它们会失败。

例如，在我的文本中，大多数句子都是用句点分隔的，但在某些情况下，例如项目符号点，它们不是用句点分隔的。这里两个解析都惨遭失败。

我什至尝试在斯坦福解析中设置多个句子终止符的选项，但输出并没有好多少！

有什么想法吗？

编辑：为了使其更简单，我希望解析分隔符为换行符（“\n”）或句点（“.”）的文本...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

躲猫猫 2024-12-27 21:05:40

首先你必须明确定义任务。准确地说，您对“句子”的定义是什么？除非你有这样的定义，否则你只会在原地徘徊。

其次，清理脏文本通常是与“句子分割”截然不同的任务。各种 NLP 句子词块分析器都假设输入文本相对干净。从 HTML、提取的 powerpoint 或其他噪音到文本是另一个问题。

第三，斯坦福等大口径设备是统计的。因此，它们保证具有非零错误率。您的数据与训练时的数据越不一样，错误率就越高。

回复收藏 0 原文

长发绾君心 2024-12-27 21:05:40

编写一个自定义句子分割器。您可以使用斯坦福分离器之类的东西作为第一遍，然后编写基于规则的后处理器来纠正错误。

我对正在解析的生物医学文本做了类似的事情。我使用了 GENIA 分离器，然后在事后修复了一些东西。

编辑：如果您正在接收输入 HTML，那么您应该首先对其进行预处理，例如处理项目符号列表和其他内容。然后应用分离器。

回复收藏 0 原文

差↓一点笑了 2024-12-27 21:05:40

还有一个更优秀的自然语言处理工具包 - GATE。它有许多句子分割器，包括标准的 ANNIE 句子分割器（不完全满足您的需要）和正则表达式句子分割器。稍后用于任何棘手的分裂。

适合您目的的确切管道是：

Document Reset PR。
ANNIE 英语分词器。
ANNIE 正则表达式句子分割器。

您还可以使用 GATE 的 JAPE 规则更灵活的模式搜索。（有关完整的 GATE 文档，请参阅 Tao）。

回复收藏 0 原文

反目相谮 2024-12-27 21:05:40

如果您想坚持使用斯坦福 NLP 或 OpenNLP，那么您最好重新训练模型。这些软件包中的几乎所有工具都是基于机器学习的。只有定制的训练数据，才能给你理想的模型和性能。

这是我的建议：根据您的标准手动拆分句子。我想几千句话就够了。然后调用 API 或命令行来重新训练句子分割器。然后你就完成了！

但首先，你需要弄清楚的一件事是，正如之前的帖子中所说：“首先你必须明确定义任务。准确地说，你对‘一句话’的定义是什么？”

我在我的项目中使用斯坦福 NLP 和 OpenNLP，菜肴地图，一个美味菜肴发现引擎，基于 NLP 和机器学习。他们工作得很好！

回复收藏 0 原文

百变从容 2024-12-27 21:05:40

对于类似的情况，我所做的就是根据我想要分割文本的位置将文本分成不同的句子（用换行符分隔）。正如您的情况一样，它是以项目符号开头的文本（或者末尾带有“换行标记”的文本）。这也将解决在使用 HTML 时可能出现的类似问题。
将它们分成不同的行后，您可以发送单独的行进行句子检测，这会更正确。

回复收藏 0 原文

~没有更多了~

关于作者

滴情不沾

暂无简介

文章

27 人气

关注发私信

佚名

文章 0 评论 0

关注

羁客

文章 0 评论 0

关注

天天爱笑的徐老师

文章 0 评论 0

关注

星

文章 0 评论 0

关注

夏日落

文章 0 评论 0

关注

隐诗

文章 0 评论 0

友情链接

文江博客

使用 NLP 进行句子检测

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

使用 NLP 进行句子检测

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。