当前位置：文江博客话题详情

wget 的 -N 选项有问题

发布于 2024-10-16 16:20:41 字数 372 浏览 4 评论 0原文

我正在尝试使用 wget 抓取网站。这是我的命令：

wget -t 3 -N -k -r -x

-N 表示“如果服务器版本早于本地版本，则不下载文件”。但这不起作用。当我重新启动上述抓取操作时，即使文件没有任何更改，相同的文件也会被一遍又一遍地下载。

许多下载的页面报告：

上次修改的标头丢失 - 时间戳已关闭。

我已经尝试抓取几个网站，但到目前为止所有尝试都出现了这个问题。

这是远程服务器控制的情况吗？他们是否选择不发送这些时间戳标头？如果是这样的话，我能做的可能不多吗？

我知道 -NC （无破坏）选项，但这将防止现有文件不被覆盖，即使服务器文件较新，从而导致陈旧的本地数据累积。

谢谢德鲁

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

撧情箌佬 2024-10-23 16:20:41

wget -N 开关确实有效，但许多 Web 服务器由于各种原因不发送 Last-Modified 标头。例如，动态页面（PHP 或任何 CMS 等）必须主动实现功能（找出内容上次修改的时间，并发送标头）。有些会，有些则不会。

实际上也没有其他可靠的方法来检查文件是否已更改。

回复收藏 0 原文

~没有更多了~

关于作者

睫毛上残留的泪

暂无简介

文章

741 人气

关注发私信

佚名

文章 0 评论 0

关注

今天

文章 0 评论 0

关注

゛时过境迁

文章 0 评论 0

关注

达拉崩吧

文章 0 评论 0

关注

呆萌少年

文章 0 评论 0

关注

孤者何惧

文章 0 评论 0

友情链接

文江博客

wget 的 -N 选项有问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

wget 的 -N 选项有问题

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

今天

゛时过境迁

达拉崩吧

呆萌少年

孤者何惧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。