如何收集没有内容的网站上的所有链接?
我想获取网站链接到的所有 URL(在同一域上),而无需使用 wget 之类的工具下载所有内容。有没有办法告诉 wget 仅列出它要下载的链接?
如果有人能想出更好的解决方案,请了解我使用它的一些背景:我正在尝试构建一个 robots.txt 文件,该文件排除所有以 p[4-9].html 结尾的文件,但 robots .txt 不支持正则表达式。因此,我尝试获取所有链接,然后针对它们运行正则表达式,然后将结果放入 robots.txt 中。有什么想法吗?
I would like to get all URLs a site links to (on the same domain) without downloading all of the content with something like wget. Is there a way to tell wget to just list the links it WOULD download?
For a little background of what I'm using this for if someone can come up with a better solution: I'm trying to build a robots.txt file that excludes all files that end with p[4-9].html but robots.txt doesn't support regular expressions. So I'm trying to get all links and then run a regular expression against them then put the result in the robots.txt. Any ideas?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我的建议:将 wget 和 gawk 组合在一个(非常)小的 shell 脚本中。
维基百科上有关于 AWK 的详细概述:http://en.wikipedia.org/wiki/AWK
My recommendation: combine wget and gawk in a (very) small shell script.
There's a good overview of AWK on wikipedia: http://en.wikipedia.org/wiki/AWK