分析 HTML 页面

发布于 2024-11-02 13:26:28 字数 313 浏览 1 评论 0原文

我有一个关于 HTML 页面分析的问题。例如,有一个页面 www.example.com/page.html 包含我需要的表格中的信息,而 www.example.com/page2.html 有一些其他信息,但采用文本格式。目前,我正在使用正则表达式(preg_match_all),我必须在其中插入手工制作的模式。有没有更快/更好的方法来做到这一点。所以完整的问题是:是否有一种快速/好的方法可以从 HTML 页面中提取信息,而不需要我通过正则表达式使用和编辑部分源代码?

(其他信息:我使用 PHP icw cURL 来获取页面的内容,然后使用 preg_match_all 来提取数据)

I've got a question that concerns the analyzing of HTML pages. For example there is an page, www.example.com/page.html that contains information in tables that I need, and www.example.com/page2.html has some other information, but in text format. Currently, I'm using an regex (preg_match_all) in which I had to insert a pattern, hand made. Is there a faster/better way to do this. So the full question would be: is there a fast/good way to extract information from an HTML page that doesn't need me to use and edit parts of the source via a regex?

(Other information: I'm using PHP i.c.w. cURL to get the page's content, then I use preg_match_all to extract the data)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

淡笑忘祈一世凡恋 2024-11-09 13:26:28

是的!您可以将网页内容加载到 PHP DOMDocument 中,并使用 html 类和 ID 获取数据,就像使用 Javascript 一样。

这是文档 http://www.php.net/manual/en/class .domdocument.php

您应该首先使用

DOMDocument::loadHTML($html);

然后按照文档及其示例进行操作

Yes! You can load the content of the webpage into a PHP DOMDocument and fetch the data using html classes and IDs just as you would using Javascript.

Here is the documentation http://www.php.net/manual/en/class.domdocument.php

You should start off by using

DOMDocument::loadHTML($html);

Then follow the documentation and it's examples

岁吢 2024-11-09 13:26:28

使用这篇文章中建议的任何解析器。你不应该使用正则表达式来解析 html。

Use any of the parsers suggested in this post. You should never use regular expressions to parse html.

情仇皆在手 2024-11-09 13:26:28

您可以使用 dom

You can use dom.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文