用于获取网站中每页链接的快速列表的脚本或代码

发布于 2024-10-19 06:19:38 字数 247 浏览 1 评论 0原文

我如何快速生成以下格式的网站报告:

Page Name.
- Links within the page

Page Name.
- Links within the page

任何编程或脚本语言都可以。

尽管我更喜欢 Windows 上的解决方案,但我们在办公室中提供了以下所有平台:Windows、Mac 和 Linux 平台。

只是寻找一种无需大张旗鼓的方法即可做到这一点。

How can I quickly produce a report of a website in the format:

Page Name.
- Links within the page

Page Name.
- Links within the page

Any programming or scripting language will do.

Although I prefer a solution on Windows, we have all of: Windows, Mac and Linux platforms available in the office.

Just looking for a way to do it without much fanfare.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

薄暮涼年 2024-10-26 06:19:38

可能有一些工具可以为您做到这一点,但您自己组装起来并不难。一种可能的解决方案是...

  1. 使用 wget(可在 Windows 中找到)下载所有 HTML 文件,并
  2. 使用一些 xpath 工具或带正则表达式的 grep 从页面获取标题和链接。

///詹斯

There might be tools able to do this for you, but it isn't all that hard to put together yourself. One possible solution would be to...

  1. Use wget (can be found for Windows) to download all HTML files, and
  2. use some xpath tool or grep with regexps to get the title and the links from the pages.

///Jens

儭儭莪哋寶赑 2024-10-26 06:19:38

有很多链接分析器可以做到这一点。 这是我在 Google 中找到的第一个。

对于更有趣的事情,Don Syme 做了一个很棒的 F# 演示,其中他编写了一个非常简单的异步 URL 处理类。我找不到确切的链接,但是这里类似于F# MVP。您需要对其进行调整以拉出链接,如果您想要嵌套,则需要递归地跟踪它们。

There are loads of link analysers that will do exactly that. Here's the first I found in Google.

For something a little more interesting, Don Syme did a great F# demo in which he wrote a really simple asynch URL processing class. I can't find the exact link, but here's something similar from an F# MVP. You would need to adapt it to pull out links, and recursively follow them if you want nesting.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文