如何从html链接抓取并下载所有pdf文件?

发布于 2025-01-01 08:01:07 字数 346 浏览 0 评论 0原文

这是我抓取所有 pdf 链接的代码,但它不起作用。如何从这些链接下载并保存到我的计算机上的文件夹中?

<?php
set_time_limit(0);
include 'simple_html_dom.php';

$url = 'http://example.com';
$html = file_get_html($url) or die ('invalid url');

//extrack pdf links
foreach($html->find('a[href=[^"]*\.pdf]') as $element)
echo $element->href.'<br>';
?>

This is my code to crawl all pdf links but it doesn't work. How to download from those links and save to a folder on my computer?

<?php
set_time_limit(0);
include 'simple_html_dom.php';

$url = 'http://example.com';
$html = file_get_html($url) or die ('invalid url');

//extrack pdf links
foreach($html->find('a[href=[^"]*\.pdf]') as $element)
echo $element->href.'<br>';
?>

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

凉薄对峙 2025-01-08 08:01:07
foreach($htnl->find('a[href=[^"]*\.pdf]') as element)
           ^---typo. should be an 'm'        ^---typo. need a $ here

除了上述拼写错误之外,您的代码如何“不起作用”?

foreach($htnl->find('a[href=[^"]*\.pdf]') as element)
           ^---typo. should be an 'm'        ^---typo. need a $ here

How does your code "not work", other than because of above typo?

娇妻 2025-01-08 08:01:07

你研究过 phpquery 吗?
http://code.google.com/p/phpquery/

Have you looked into into phpquery?
http://code.google.com/p/phpquery/

默嘫て 2025-01-08 08:01:07

这里更简单的解决方案是:

foreach ($html->find('a[href$=pdf]') as $element)

https://simplehtmldom.sourceforge.io/manual.htm

[attribute$=value] 匹配具有指定属性的元素
它以某个值结束。

More simple solution here will be:

foreach ($html->find('a[href$=pdf]') as $element)

https://simplehtmldom.sourceforge.io/manual.htm

[attribute$=value] Matches elements that have the specified attribute
and it ends with a certain value.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文