当前位置：文江博客话题详情

使用自然语言处理来解析网站

发布于 2024-12-12 12:10:08 字数 327 浏览 0 评论 0原文

我通常对通过爬行网站进行数据挖掘感兴趣，但我从未找到很多关于我真正想要实现的过程的文档。我非常热衷于编写一组基本规则来定义如何解析页面，然后在工具出错时对其进行训练。

假设我想解析餐厅网站上的菜单。我想创建一个工具，允许我编写一组规则，通常显示菜单项+价格的位置。然后，我可以运行该工具并告诉它哪些菜单项解析正确，哪些菜单项错误。然后，该工具将从这些更正中“学习”，下次运行它时，我会得到更好的结果。

我稍微研究了一下 NLTK 工具包，这让我想知道解决这个问题的最佳方法是否是使用 NLP 工具，比如 NLTK。谁能指出我寻找可以帮助我入门的书籍和（理想情况下）图书馆的正确方向？ NLP 是出路吗？谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

能怎样 2024-12-19 12:10:08

我非常热衷于编写一组基本规则来定义如何解析页面

“解析页面”到底是什么意思？解析页面中的句子？进行结构化信息提取？

然后，该工具将从这些更正中“学习”，下次运行它时，我会得到更好的结果。

这是主动学习的问题，这是非常高级的东西。你需要一个机器学习工具包；哪一个取决于您到底想要做什么：创建解析树或提取显着信息。我相信 NLTK 有一些随机解析器支持。

回复收藏 0 原文

~没有更多了~

关于作者

黑寡妇

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

使用自然语言处理来解析网站

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

使用自然语言处理来解析网站

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

胡图图

zt006

z祗昰~

冰葑

野の

天空

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。