当前位置：文江博客话题详情

站点地图生成器，从头开始构建

发布于 2024-11-05 22:12:47 字数 100 浏览 2 评论 0原文

我想知道如何用 php 构建一个网站爬虫，它可以检测网站的每个页面并在 xml 文件中生成一个条目。我见过很多网站都这样做，所以我很好奇如何从头开始，或者有任何脚本或教程可以教授这一点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

—━☆沉默づ 2024-11-12 22:12:47

不要使用正则表达式。解析 html 的正确方法是使用 DOMDocument 对象。

将第一页加载到 DOMDocument 对象中。
使用 XPath 语句收集该页面中找到的所有锚标记 href。
使用这些值来查找更多要加载的页面，以便重新开始第一步。

http://www.php.net/manual/en/class.domdocument.php

回复收藏 0 原文

反话 2024-11-12 22:12:47

这是算法
步骤1->获取网站的地址，验证该地址的格式是否正确，并且以页面 (www.xyz.com/page.html) 结尾，而不是 (www.xyz.com/)。
步骤2->获取文件内容，使用正则表达式尝试获取页面列表。
步骤3->将它们收集到数据库中以供将来使用，并对这些文件执行第 2 步。

回复收藏 0 原文

~没有更多了~

关于作者

梦里寻她

暂无简介

0 文章

0 评论

23 人气

关注发私信

已经忘了多久

文章 0 评论 0

关注

15867725375

文章 0 评论 0

关注

LonelySnow

文章 0 评论 0

关注

走过海棠暮

文章 0 评论 0

关注

轻许诺言

文章 0 评论 0

关注

信馬由缰

文章 0 评论 0

友情链接

文江博客

站点地图生成器，从头开始构建

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签