当前位置：文江博客话题详情

网站的层次结构

发布于 2024-11-17 15:08:30 字数 684 浏览 8 评论 0原文

我不确定这个问题是否会有一个答案，或者是否有一个简洁的答案，但我想我还是会问。这个问题也不是特定于语言的，但可能有某种伪算法作为答案。

基本上，我试图了解蜘蛛是如何工作的，据我所知，我发现没有蜘蛛管理层次结构。他们只是列出内容或链接，但没有排序。

我的问题是这样的：我们查看一个网站，可以轻松地直观地确定哪些链接是导航链接、内容相关链接或网站外部链接。我们如何才能实现自动化？我们如何以编程方式帮助蜘蛛确定父页面和子页面。

当然，第一个答案是使用 URL 的目录结构。例如www.stackoverflow.com/questions/spiders 蜘蛛是问题的子级，问题是基本站点的子级，依此类推。但如今，层次结构通常是扁平的，ID 在 URL 中引用。

到目前为止，我对这个问题有两个答案，并且希望得到一些反馈。

1：发生。

所有页面中出现次数最多的链接将被称为导航链接。这似乎是最有前途的设计，但我可以看到动态链接和其他问题突然出现，但它们似乎微不足道。

2：深度。

例如，我需要点击某个网站多少次才能到达某个页面。这看起来是可行的，但是如果在实际上位于底层的主页上发布一些信息，则它将被确定为顶层页面或节点。

那么，有没有人对如何让蜘蛛判断链接中的层次结构有任何想法或建设性的批评。

（如果有人真的很好奇，蜘蛛的后端部分很可能是 Ruby on Rails）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

浮光之海 2024-11-24 15:08:30

你的目标是什么？如果你想爬行较少数量的网站并为某种聚合器提取有用的数据，最好构建专注的爬虫（为每个网站编写爬虫）。

如果你想抓取数百万个页面......那么你必须非常熟悉人工智能的一些高级概念。

您可以从这篇文章开始 http://www-ai.ijs .si/SasoDzeroski/ECEMEAML04/presentations/076-Znidarsic.pdf

回复收藏 0 原文

~没有更多了~

关于作者

没企图

暂无简介

文章

26 人气

关注发私信

alipaysp_snBf0MSZIv

文章 0 评论 0

关注

梦断已成空

文章 0 评论 0

关注

瞎闹

文章 0 评论 0

关注

凯凯我们等你回来

文章 0 评论 0

关注

寄意

文章 0 评论 0

关注

似梦非梦

文章 0 评论 0

友情链接

文江博客

网站的层次结构

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签