当前位置：文江博客话题详情

如何生成大型网站的图形站点地图

发布于 2024-08-09 20:25:12 字数 1539 浏览 8 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

寄意 2024-08-16 20:25:12

创建站点地图的唯一自动方法是了解站点的结构并编写一个基于该知识的程序。仅抓取链接通常是行不通的，因为链接可以位于任何页面之间，因此您可以获得图表（即节点之间的连接）。一般情况下，无法将图转换为树。

因此，您必须自己确定树的结构，然后爬行相关页面以获取页面的标题。

至于“但它只适用于3级”：3级就足够了。如果您尝试创建更多级别，您的站点地图将变得无法使用（太大、太宽）。没有人愿意下载 1MB 的站点地图，然后滚动浏览 100'000 页的链接。如果您的网站变得那么大，那么您必须实施某种搜索。

回复收藏 0 原文

何其悲哀 2024-08-16 20:25:12

这是一个 python 网络爬虫，它应该是一个很好的起点。您的总体策略是这样的：

您需要注意出站链接永远不会被跟踪，包括同一域上但高于您的起点的链接。
当您抓取时，该网站会收集映射到每个页面中包含的所有内部 url 列表的页面 url 的哈希值。
遍历此列表，为每个唯一的 url 分配一个令牌。
使用您的 {token =>; 的哈希值[tokens]} 生成一个 graphviz 文件，该文件将布置一个图表，以便您
将 graphviz 输出转换为图像映射，其中每个节点链接到其相应的网页

正如 leonm 所指出的，您需要执行所有这些操作的原因是，网站是图形，而不是树，并且布置图形比用简单的 javascript 和CSS。 Graphviz 擅长它的工作。

回复收藏 0 原文

莫言歌 2024-08-16 20:25:12

请参阅http://aaron.oirt.rutgers.edu/myapp/docs/ W1100_2200.TreeView
关于如何格式化树视图。您还可以修改示例应用程序
http://aaron.oirt.rutgers.edu/myapp/DirectoryTree/index 刮你的
页面（如果它们被组织为 HTML 文件的目录）。

回复收藏 0 原文

~没有更多了~

关于作者

两仪

暂无简介

文章

24 人气

关注发私信

我一直都在从未离去

文章 0 评论 0

关注

fangs

文章 0 评论 0

关注

朱染

文章 0 评论 0

关注

zhangcx

文章 0 评论 0

关注

Willy

文章 0 评论 0

关注

taohaoge

文章 0 评论 0

友情链接

文江博客

如何生成大型网站的图形站点地图

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签