如何查找 mysite.com 上的所有网址/页面
我有一个我现在支持的网站,需要列出所有实时页面/网址。 有没有一个爬虫可以用来指向我的主页并让它列出它找到的所有页面/网址。
然后我可以删除任何未进入此列表的内容,因为它们将是从未清理过的孤立页面/网址?
我正在使用 DNN 并且想要删除不需要的页面。
i have a website that i now support and need to list all live pages/ url's.
is there a crawler i can use to point to my homepage and have it list all the pages/url's that it finds.
then i can delete any that dont make their way into this listing as they will be orphan pages/url's that have never been cleaned up?
I am using DNN and want to kill un-needed pages.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
由于您使用的是数据库驱动的 CMS,因此您应该能够通过 DNN 管理界面或直接查看数据库来执行此操作。比爬虫可靠得多。
Since you're using a database-driven CMS, you should be able to do this either via the DNN admin interface or by looking directly in the database. Far more reliable than a crawler.
回到过去,我使用 wget 来达到这个确切的目的,使用它的递归检索功能。这可能不是最有效的方法,但绝对有效。 YMMV,当然,因为某些网站会返回比其他网站多很多的内容。
Back in the old days I used wget for this exact purpose, using its recursive retrieval functionality. It might not be the most efficient way, but it was definitely effective. YMMV, of course, since some sites will return a lot more content than others.