如何收集没有内容的网站上的所有链接?

发布于 2024-09-13 00:56:01 字数 244 浏览 3 评论 0原文

我想获取网站链接到的所有 URL(在同一域上),而无需使用 wget 之类的工具下载所有内容。有没有办法告诉 wget 仅列出它要下载的链接?

如果有人能想出更好的解决方案,请了解我使用它的一些背景:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9].html 结尾的文件,但 robots .txt 不支持正则表达式。因此,我尝试获取所有链接,然后针对它们运行正则表达式,然后将结果放入 robots.txt 中。有什么想法吗?

I would like to get all URLs a site links to (on the same domain) without downloading all of the content with something like wget. Is there a way to tell wget to just list the links it WOULD download?

For a little background of what I'm using this for if someone can come up with a better solution: I'm trying to build a robots.txt file that excludes all files that end with p[4-9].html but robots.txt doesn't support regular expressions. So I'm trying to get all links and then run a regular expression against them then put the result in the robots.txt. Any ideas?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

油焖大侠 2024-09-20 00:56:01

我的建议:将 wget 和 gawk 组合在一个(非常)小的 shell 脚本中。

维基百科上有关于 AWK 的详细概述:http://en.wikipedia.org/wiki/AWK

My recommendation: combine wget and gawk in a (very) small shell script.

There's a good overview of AWK on wikipedia: http://en.wikipedia.org/wiki/AWK

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文