当前位置：文江博客话题详情

robots.txt web-crawler

如何收集没有内容的网站上的所有链接？

发布于 2024-09-13 00:56:01 字数 244 浏览 3 评论 0原文

我想获取网站链接到的所有 URL（在同一域上），而无需使用 wget 之类的工具下载所有内容。有没有办法告诉 wget 仅列出它要下载的链接？

如果有人能想出更好的解决方案，请了解我使用它的一些背景：我正在尝试构建一个 robots.txt 文件，该文件排除所有以 p[4-9].html 结尾的文件，但 robots .txt 不支持正则表达式。因此，我尝试获取所有链接，然后针对它们运行正则表达式，然后将结果放入 robots.txt 中。有什么想法吗？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

油焖大侠 2024-09-20 00:56:01

我的建议：将 wget 和 gawk 组合在一个（非常）小的 shell 脚本中。

维基百科上有关于 AWK 的详细概述：http://en.wikipedia.org/wiki/AWK

回复收藏 0 原文

~没有更多了~

关于作者

夜灵血窟げ

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文