当前位置：文江博客话题详情

我可以使用命名实体识别来识别 Intranet 页面内容吗？

发布于 2024-09-29 01:28:40 字数 359 浏览 4 评论 0原文

我是自然语言处理的新手，我想通过创建一个简单的项目来了解更多信息。 NLTK 有人建议在 NLP 中流行，所以我将在我的项目中使用它。

我想做的是：

我想扫描我们公司的内联网页面；大约 3K 页面
我想根据某些标准对这些页面的内容进行解析和分类，例如：人力资源、工程、公司页面等...

从我到目前为止所读到的内容来看，我可以使用命名实体识别来做到这一点。我可以描述每个页面类别的实体，训练 NLTK 解决方案并运行每个页面以确定类别。

这是正确的方法吗？我很欣赏任何方向和想法...

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

昨迟人 2024-10-06 01:28:41

看起来您想要进行文本/文档分类，这与命名实体不太一样识别，目标是识别文本中的任何命名实体（专有名称、地点、机构等）。然而，在有限域中进行文本分类时，专有名称可能是非常好的特征，例如，带有首席工程师姓名的页面可能会被分类为“工程”。

NLTK 书中有关于基本文本分类的章节。

回复收藏 0 原文

~没有更多了~

关于作者

你的心境我的脸

暂无简介

0 文章

0 评论

25 人气

关注发私信

小瓶盖

文章 0 评论 0

关注

wxsp_Ukbq8xGR

文章 0 评论 0

关注

1638627670

文章 0 评论 0

关注

仅一夜美梦

文章 0 评论 0

关注

夜访吸血鬼

文章 0 评论 0

关注

近卫軍团

文章 0 评论 0

友情链接

文江博客

我可以使用命名实体识别来识别 Intranet 页面内容吗？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者