使用“简单 html dom”获取网站图像时如何过滤广告图像

发布于 2024-10-31 16:16:48 字数 565 浏览 2 评论 0原文

我想使用 simple_html_dom 获取某些网站的图像。这是一个测试站点。当我使用下面的一些基本代码时,我可以获得所有图像。但如何过滤广告图片呢?

<?php
header('Content-type:text/html; charset=utf-8');
require_once 'simple_html_dom.php';
$v = 'http://www.vimeo.com/';
$html = file_get_html($v);
foreach($html->find('img') as $element) {
            $image = $element->src;
            echo '<img src="'.$image.'" /><hr />';
        }
?>

我注意到有些广告也是 jpg 图像格式,但网址包含 adads,或者只是 gif 图像格式...如何编写一些代码来过滤广告?谢谢。

I want use simple_html_dom to get some site's images. this is a test site. when I use some basic code below, I can get all the images. but how to filter ads images?

<?php
header('Content-type:text/html; charset=utf-8');
require_once 'simple_html_dom.php';
$v = 'http://www.vimeo.com/';
$html = file_get_html($v);
foreach($html->find('img') as $element) {
            $image = $element->src;
            echo '<img src="'.$image.'" /><hr />';
        }
?>

I notice some ads also as a jpg image format, but the url contains ad or ads, or something just as a gif image format... how to write some code to filter ads? thanks.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

神仙妹妹 2024-11-07 16:16:48

在您的 src 中搜索是否找到广告字符串。但这可能性太大了,比如 adminaddressreading...

if (!preg_match("ads?", $element->src)) {
    //it's not an ad
}

Search in your src if it find the ad(s) string. But that be too mush posibility, like admin,address,reading...

if (!preg_match("ads?", $element->src)) {
    //it's not an ad
}
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文