当前位置：文江博客话题详情

使用 wget 提取元标记属性

发布于 2024-11-17 08:30:42 字数 204 浏览 3 评论 0原文

我有一个文件，每行都有一些 URL。我需要提取标签中存在的“关键字”，即如果存在“关键字”的元标签，那么我想获取它的“内容”值。示例：如果网页具有此元标记，那么对于该 URL，我希望提取“维基百科，百科全书”。

一种方法是使用“wget”下载网页，然后使用一些标准 HTML 解析器对其进行解析。

我想知道是否有更好的方法可以在不下载整个网页的情况下执行此操作。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

为你鎻心 2024-11-24 08:30:42

您所描述的是最简单的实施解决方案。

如果您担心生成的网络流量，您可以编写一个仅读取标头的小程序。一旦您阅读了标签，您就可以完成下载。

更新：您必须为套接字设置一个非常小的接收缓冲区，否则内核可能仍会下载整个页面。使用 tcpdump 验证您的解决方案。

回复收藏 0 原文

~没有更多了~

关于作者

征﹌骨岁月お

暂无简介

0 文章

0 评论

24 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

使用 wget 提取元标记属性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签