抓取并处理聚合网站的 HTML

发布于 2024-10-06 22:29:26 字数 219 浏览 3 评论 0原文

我正在用 PHP 编写一个爬行脚本。我正在使用 PHP 简单 HTML DOM 解析器。

获取 HTML 后,我只需要从每个页面中提取一些信息,并将这些信息聚合到我网站上我自己的 HTML 页面中。

我无法理解如何继续进行此操作。

任何帮助表示赞赏。

已添加

我想提取一些帖子(如果与特定地理位置和主题相关)

I am working on a crawling script in PHP. I am using PHP Simple HTML DOM Parser.

After getting the HTML I need to extract only some of the info from each page and aggregate these into my own HTML page on my site.

I am unable to understand how to proceed on this.

Any help is appreciated.

Added

I want to extract some posts (if related to a particular geography and topic)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

初见你 2024-10-13 22:29:26

正则表达式可能是从数据中获取复杂信息的方法,但对于简单标签,您可以使用如下内容:

// 从 URL 或文件创建 DOM
$html = file_get_html('http://www.google.com/');

// 查找所有图像
foreach($html->find('img') as $element)
回显 $element->src 。 '
';

// 查找所有链接
foreach($html->find('a') as $element)
回显 $element->href 。 '
';

Regular expressions may be the way to get complex info out of the data but for simple tags you can use something like:

// Create DOM from URL or file
$html = file_get_html('http://www.google.com/');

// Find all images
foreach($html->find('img') as $element)
echo $element->src . '<br>';

// Find all links
foreach($html->find('a') as $element)
echo $element->href . '<br>';

囚我心虐我身 2024-10-13 22:29:26

您可以这样做:

$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
    // grab the content, attributes or whatever you'r looking for
}

使用 Xpath 查询,您不必手动遍历 DOM 树,并且您的脚本对于您抓取的站点中的结构变化更加稳健。

我希望这能让你走上正轨。要获得更详细的示例,您必须提供更多信息。

You could do something like that:

$doc = new DomDocument();
@$doc->loadHTMLFile($url);
$xpath = new DOMXpath($doc);
$nodeList = $xpath->query("your-xpath-query");
foreach ($nodeList as $node) {
    // grab the content, attributes or whatever you'r looking for
}

Using Xpath queries you don't have to traverse the DOM tree manually and your script is more robust against structural changes in the sites you crawl.

I hope that gets you on the right track. For a more detailed example you have to provide more information.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文