当前位置：文江博客话题详情

PHP HTML parsing html-content-extraction

如何从原始 HTML 文件中提取数据？

发布于 2024-08-12 22:02:53 字数 150 浏览 7 评论 0原文

有没有一种方法可以从没有 ID 和 classes 的非语义编写的原始 html 中提取所需的数据？我的意思是，假设有一个已保存的网页（个人资料）的 html 文件，并且我想提取诸如“爱好”之类的数据。使用 PHP 可以做到这一点吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

粉红×色少女 2024-08-19 22:02:53

使用正则表达式！我开玩笑，我开玩笑。如果您知道同一页面的状态，并且保证格式保持足够相似，那么您可以尝试编写手动解析器。或者，有很多库可以解析 html。我对 PHP 不太熟悉，无法推荐一个，但我相信谷歌搜索可以让你走得更远。我之前很幸运地使用过 John Resig 的纯 javascript HTML 解析器。

归根结底，如果您需要来自未按语义构造的 html 页面的语义信息，那么您可能注定会以编程方式失败，而您最好的选择可能是机械土耳其人。

回复收藏 0 原文

廻憶裏菂餘溫 2024-08-19 22:02:53

听起来您正在寻找 PHP DOM 解析器，例如这个。如果 HTML 确实缺乏语义结构，那么提取所需的数据可能会有点困难，但 DOM 解析器是起点。

回复收藏 0 原文

半世晨晓 2024-08-19 22:02:53

是的，该技术称为网络抓取。如果 DOM 是有效的 html，则可以使用它。如果页面是动态生成的，则生成器将使用某种结构，根据我的经验，您始终可以隔离感兴趣的元素。

如果 DOM 不适合你，你可以使用正则表达式（这就是我在编写网络蜘蛛时经常做的事情）。正则表达式比针对 DOM 层次结构编写抓取逻辑更有效、更快速。因此，您需要打开一些个人资料页面并分析静态结构。然后只需编写一个正则表达式来隔离感兴趣的字段。

回复收藏 0 原文

黑寡妇 2024-08-19 22:02:53

使用 PHP 有两种方法。首先是使用 tidy 扩展清理文档，使其成为有效的 XHTML，从而成为格式良好的 XML，因此可以使用 XML 工具进行解析。

第二种是使用 PHP 版本的 html5lib 解析器，它试图实现 HTML5 研究进入当前的浏览器解析例程。如果它显示在浏览器中，html5lib 可以解析它。

无论使用哪种方法，您最终都会得到一个 DOM 对象，您可以使用 xpath 表达式进行查询。由于您的理论文档缺乏语义结构，因此您需要从“第三个 p 内的第五个跨度”的心态来看待文档部分。

更多信息此处（自链接警告）。

回复收藏 0 原文

~没有更多了~

关于作者

难忘№最初的完美

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文