当前位置：文江博客话题详情

从网页中提取相关图像

发布于 2024-09-07 10:03:51 字数 338 浏览 6 评论 0原文

我有几个由 Twitter 驱动的新闻聚合网站。我一直计划添加我在 Twitter 上找到的文章中的图像。

如果我下载页面并使用标签提取图像，我会得到一堆图像；并非所有内容都与本文相关。例如，捕获按钮、图标、广告等的图像。如何提取文章附带的图像？我知道有一个解决方案——Facebook 链接共享器做得很好。

Mithun

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

稀香 2024-09-14 10:03:51

从页面下载所有图像，
将来自广告服务器的所有图像列入黑名单。
然后找到一些启发式的方法，让你得到正确的图像...

我想是这样的：

最大分辨率 += 5pts
最大文件大小 += 10 pts
Jpeg += 2 pts

然后获取最多点的图像并扔掉其余的

可能有效对于大多数网站。

（不过需要一些启发式的摆弄）

回复收藏 0 原文

零度℉ 2024-09-14 10:03:51

已经很久了。但这下次可能会有所帮助。

您可以使用这个 API https://urlmeta.org/

使用起来非常简单，结果是我们需要的最好的。

使用 API 的示例：

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>

这就是您需要的结果。

It's been a long time. But this may help next time.

You can use this API https://urlmeta.org/

It's very simple to use and result is the best we need.

example for using API:

<?php
$url = "http://timesofindia.indiatimes.com/business/india-business/Raghuram-Rajan-not-fit-to-be-RBI-Governor-Subramanian-Swamy/articleshow/52236298.cms";

$result = file_get_contents('https://api.urlmeta.org/?url='.$url);
$array = json_decode($result,1);
print_r($array['meta']['image']);

?>

And that's the result you needed.

回复收藏 0 原文