分析 HTML 页面
我有一个关于 HTML 页面分析的问题。例如,有一个页面 www.example.com/page.html 包含我需要的表格中的信息,而 www.example.com/page2.html 有一些其他信息,但采用文本格式。目前,我正在使用正则表达式(preg_match_all),我必须在其中插入手工制作的模式。有没有更快/更好的方法来做到这一点。所以完整的问题是:是否有一种快速/好的方法可以从 HTML 页面中提取信息,而不需要我通过正则表达式使用和编辑部分源代码?
(其他信息:我使用 PHP icw cURL 来获取页面的内容,然后使用 preg_match_all 来提取数据)
I've got a question that concerns the analyzing of HTML pages. For example there is an page, www.example.com/page.html that contains information in tables that I need, and www.example.com/page2.html has some other information, but in text format. Currently, I'm using an regex (preg_match_all) in which I had to insert a pattern, hand made. Is there a faster/better way to do this. So the full question would be: is there a fast/good way to extract information from an HTML page that doesn't need me to use and edit parts of the source via a regex?
(Other information: I'm using PHP i.c.w. cURL to get the page's content, then I use preg_match_all to extract the data)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
是的!您可以将网页内容加载到 PHP DOMDocument 中,并使用 html 类和 ID 获取数据,就像使用 Javascript 一样。
这是文档 http://www.php.net/manual/en/class .domdocument.php
您应该首先使用
然后按照文档及其示例进行操作
Yes! You can load the content of the webpage into a PHP DOMDocument and fetch the data using html classes and IDs just as you would using Javascript.
Here is the documentation http://www.php.net/manual/en/class.domdocument.php
You should start off by using
Then follow the documentation and it's examples
使用这篇文章中建议的任何解析器。你不应该使用正则表达式来解析 html。
Use any of the parsers suggested in this post. You should never use regular expressions to parse html.
您可以使用 dom。
You can use dom.