如何查找 mysite.com 上的所有网址/页面

发布于 2024-09-06 14:28:55 字数 149 浏览 2 评论 0原文

我有一个我现在支持的网站,需要列出所有实时页面/网址。 有没有一个爬虫可以用来指向我的主页并让它列出它找到的所有页面/网址。

然后我可以删除任何未进入此列表的内容,因为它们将是从未清理过的孤立页面/网址?

我正在使用 DNN 并且想要删除不需要的页面。

i have a website that i now support and need to list all live pages/ url's.
is there a crawler i can use to point to my homepage and have it list all the pages/url's that it finds.

then i can delete any that dont make their way into this listing as they will be orphan pages/url's that have never been cleaned up?

I am using DNN and want to kill un-needed pages.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

萌酱 2024-09-13 14:28:55

由于您使用的是数据库驱动的 CMS,因此您应该能够通过 DNN 管理界面或直接查看数据库来执行此操作。比爬虫可靠得多。

Since you're using a database-driven CMS, you should be able to do this either via the DNN admin interface or by looking directly in the database. Far more reliable than a crawler.

天煞孤星 2024-09-13 14:28:55

回到过去,我使用 wget 来达到这个确切的目的,使用它的递归检索功能。这可能不是最有效的方法,但绝对有效。 YMMV,当然,因为某些网站会返回比其他网站多很多的内容。

Back in the old days I used wget for this exact purpose, using its recursive retrieval functionality. It might not be the most efficient way, but it was definitely effective. YMMV, of course, since some sites will return a lot more content than others.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文