当前位置：文江博客话题详情

抓取并处理聚合网站的 HTML

发布于 2024-10-06 22:29:26 字数 219 浏览 9 评论 0原文

我正在用 PHP 编写一个爬行脚本。我正在使用 PHP 简单 HTML DOM 解析器。

获取 HTML 后，我只需要从每个页面中提取一些信息，并将这些信息聚合到我网站上我自己的 HTML 页面中。

我无法理解如何继续进行此操作。

任何帮助表示赞赏。

已添加

我想提取一些帖子（如果与特定地理位置和主题相关）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

初见你 2024-10-13 22:29:26

正则表达式可能是从数据中获取复杂信息的方法，但对于简单标签，您可以使用如下内容：

// 从 URL 或文件创建 DOM
$html = file_get_html('http://www.google.com/');

// 查找所有图像
foreach($html->find('img') as $element)
回显 $element->src 。 '
';

// 查找所有链接
foreach($html->find('a') as $element)
回显 $element->href 。 '
';

回复收藏 0 原文

囚我心虐我身 2024-10-13 22:29:26

您可以这样做：

$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
    // grab the content, attributes or whatever you'r looking for
}

使用 Xpath 查询，您不必手动遍历 DOM 树，并且您的脚本对于您抓取的站点中的结构变化更加稳健。

我希望这能让你走上正轨。要获得更详细的示例，您必须提供更多信息。

You could do something like that:

$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
    // grab the content, attributes or whatever you'r looking for
}

Using Xpath queries you don't have to traverse the DOM tree manually and your script is more robust against structural changes in the sites you crawl.

I hope that gets you on the right track. For a more detailed example you have to provide more information.

回复收藏 0 原文

~没有更多了~