抓取并处理聚合网站的 HTML
我正在用 PHP 编写一个爬行脚本。我正在使用 PHP 简单 HTML DOM 解析器。
获取 HTML 后,我只需要从每个页面中提取一些信息,并将这些信息聚合到我网站上我自己的 HTML 页面中。
我无法理解如何继续进行此操作。
任何帮助表示赞赏。
已添加
我想提取一些帖子(如果与特定地理位置和主题相关)
I am working on a crawling script in PHP. I am using PHP Simple HTML DOM Parser.
After getting the HTML I need to extract only some of the info from each page and aggregate these into my own HTML page on my site.
I am unable to understand how to proceed on this.
Any help is appreciated.
Added
I want to extract some posts (if related to a particular geography and topic)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
正则表达式可能是从数据中获取复杂信息的方法,但对于简单标签,您可以使用如下内容:
// 从 URL 或文件创建 DOM
$html = file_get_html('http://www.google.com/');
// 查找所有图像
foreach($html->find('img') as $element)
回显 $element->src 。 '
';
// 查找所有链接
foreach($html->find('a') as $element)
回显 $element->href 。 '
';
Regular expressions may be the way to get complex info out of the data but for simple tags you can use something like:
// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');
// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';
// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';
您可以这样做:
使用 Xpath 查询,您不必手动遍历 DOM 树,并且您的脚本对于您抓取的站点中的结构变化更加稳健。
我希望这能让你走上正轨。要获得更详细的示例,您必须提供更多信息。
You could do something like that:
Using Xpath queries you don't have to traverse the DOM tree manually and your script is more robust against structural changes in the sites you crawl.
I hope that gets you on the right track. For a more detailed example you have to provide more information.