PHP 中图像链接的屏幕抓取
我有一个网站,其中包含许多不同的产品页面,每个页面都有一定数量的所有页面上格式相同的图像。我希望能够截取每个页面的 url,以便我可以从每个页面检索每个图像的 url。这个想法是为每个页面创建一个由热链接图像组成的画廊。
我知道这可以在 php 中完成,但我不知道如何废弃多个链接的页面。有什么想法吗?
I have a website that contains many different pages of products and each page has a certain amount of images in the same format across all pages. I want to be able to screen scrap each page's url so I can retrieve the url of each image from each page. The idea is to make a gallery for each page made up of hotlinked images.
I know this can be done in php, but I am not sure how to scrap the page for multiple links. Any ideas?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
我建议使用 DOM 解析器,例如 PHP 自己的 DOMDocument。例子:
I would recommend using a DOM parser, such as PHP's very own DOMDocument. Example:
您可以使用正则表达式(regex)来遍历页面源并解析所有IMG标签。
这个正则表达式可以很好地完成这项工作:
]+src="(.*?)"
这是如何工作的?
示例 PHP 代码:
您需要做更多的工作来解决相对 URL 之类的问题。
You can use a regular expression (regex) to go through the page source and parse all the IMG tags.
This regex will do the job quite nicely:
<img[^>]+src="(.*?)"
How does this work?
Sample PHP code:
You'll have to do a bit more work to resolve things like relative URLs.
我真的很喜欢 PHP Simple HTML DOM Parser 来完成这样的事情。首页上有一个抓取图像的示例:
I really like PHP Simple HTML DOM Parser for things like this. An example of grabbing images is right there on the front page:
你可以用这个来废弃页面。
http://simplehtmldom.sourceforge.net/
但它需要 PHP 5+。
You can you this to scrap pages.
http://simplehtmldom.sourceforge.net/
but it requires PHP 5+.