如何从html链接抓取并下载所有pdf文件？

发布于 2025-01-01 08:01:07 字数 346 浏览 0 评论 0原文

这是我抓取所有 pdf 链接的代码，但它不起作用。如何从这些链接下载并保存到我的计算机上的文件夹中？

<?php
set_time_limit(0);
include 'simple_html_dom.php';

$url = 'http://example.com';
$html = file_get_html($url) or die ('invalid url');

//extrack pdf links
foreach($html->find('a[href=[^"]*\.pdf]') as $element)
echo $element->href.'<br>';
?>

原文

This is my code to crawl all pdf links but it doesn't work. How to download from those links and save to a folder on my computer?

<?php
set_time_limit(0);
include 'simple_html_dom.php';

$url = 'http://example.com';
$html = file_get_html($url) or die ('invalid url');

//extrack pdf links
foreach($html->find('a[href=[^"]*\.pdf]') as $element)
echo $element->href.'<br>';
?>

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

凉薄对峙 2025-01-08 08:01:07

foreach($htnl->find('a[href=[^"]*\.pdf]') as element)
           ^---typo. should be an 'm'        ^---typo. need a $ here

除了上述拼写错误之外，您的代码如何“不起作用”？

foreach($htnl->find('a[href=[^"]*\.pdf]') as element)
           ^---typo. should be an 'm'        ^---typo. need a $ here

How does your code "not work", other than because of above typo?

回复收藏 0 原文

娇妻 2025-01-08 08:01:07

你研究过 phpquery 吗？
http://code.google.com/p/phpquery/

回复收藏 0 原文

默嘫て 2025-01-08 08:01:07

这里更简单的解决方案是：

foreach ($html->find('a[href$=pdf]') as $element)

https://simplehtmldom.sourceforge.io/manual.htm

[attribute$=value] 匹配具有指定属性的元素
它以某个值结束。

关于作者

还在原地等你

暂无简介

文章

24 人气

关注发私信

lanyue

文章 0 评论 0

关注

海螺姑娘

文章 0 评论 0

关注

Demos

文章 0 评论 0

关注

亢龙有悔

文章 0 评论 0

关注

海未深

文章 0 评论 0

关注

浅忆流年

文章 0 评论 0

友情链接

文江博客

如何从html链接抓取并下载所有pdf文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

如何从html链接抓取并下载所有pdf文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

lanyue

海螺姑娘

Demos

亢龙有悔

海未深

浅忆流年

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。