查找并删除孤立的网页、图像和其他相关文件

发布于 2024-08-10 01:37:53 字数 717 浏览 11 评论 0原文

我正在处理许多网站，其文件可追溯到 2000 年。这些网站随着时间的推移而有机增长，导致大量孤立网页，包括文件、图像、CSS 文件、JavaScript 文件等...这些孤立文件导致许多问题包括可维护性差、可能的安全漏洞、糟糕的客户体验以及让像我这样的 OCD/GTD 怪胎发疯。

这些文件的数量有数千个，因此完全手动的解决方案是不可行的。最终，清理过程将需要相当大的质量检查工作，以确保我们不会无意中删除所需的文件，但我希望开发一种技术解决方案来帮助加快手动工作速度。此外，我希望将流程/实用程序落实到位，以帮助防止将来发生这种混乱状态。

环境注意事项：

经典 ASP 和 .Net
运行 IIS 6 和 IIS 7 的
Windows 服务器多个环境（开发、集成、QA、阶段、生产）
用于源代码控制的 TFS

在开始之前，我想从已成功导航的其他人那里获得一些反馈类似的过程。

具体来说，我正在寻找：

识别和清理孤立文件的过程
保持环境中没有孤立文件的过程
帮助识别孤立文件的实用程序
帮助识别损坏的链接的实用程序（一旦文件被删除）

我不是在寻找：

我的解决方案组织强迫症……我喜欢我现在的样子。
Snide 评论说我们仍然使用经典 ASP。我已经感觉到疼痛了。没有必要把它擦进去。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

只想待在家 2024-08-17 01:37:53

起初，我认为您可以通过扫描文件中的链接，然后对文件夹结构进行比较来摆脱困境 - 但这只能识别简单的孤立文件，而不是相互引用的孤立文件的集合。因此，使用 grep 可能无法帮助您实现这一目标。

这不是一个简单的解决方案，但却是保持环境清洁的绝佳实用程序（因此值得付出努力）。另外，您可以在所有环境中重复使用它（并与其他人共享！）

其基本思想是设置和填充有向图，其中每个节点的键都是绝对路径。这是通过扫描所有文件并添加依赖项来完成的 - 例如：

/index.html     -> /subfolder/file.jpg
                -> /subfolder/temp.html
                -> /error.html
/temp.html      -> /index.html
/error.html     
/stray.html     -> /index.html
/abandoned.html

然后，您可以通过在根页面上执行 BFS 来识别所有“可访问”文件。

使用方向图，您还可以按文件的进出度对文件进行分类。在上面的示例中：

/index.html     in: 1 out: 2
/temp.html      in: 1 out: 1
/error.html     in: 1 out: 0
/stray.html     in: 0 out: 1
/abandoned.html in: 0 out: 0

因此，您基本上是在寻找已放弃的 in = 0 的文件。

此外，out = 0 的文件将成为终端页面；这可能会或可能不会在您的网站上出现（如错误所示，这是一个错误页面）。

At first I thought you could get away by scanning files for links, and then doing a diff against your folder structure - but this only identifies simple orphans, not collections of orphaned files that reference each other. So, using grep probably won't get you all the way there.

This isn't a trivial solution, but would make an excellent utility for keeping your environment clean (and therefore, worth the effort). Plus, you can re-use it across all environments (and share it with others!)

The basic idea is to setup and populate a directional graph where each node's key is an absolute path. This is done by scanning all the files and adding dependencies - for example:

/index.html     -> /subfolder/file.jpg
                -> /subfolder/temp.html
                -> /error.html
/temp.html      -> /index.html
/error.html     
/stray.html     -> /index.html
/abandoned.html

Then, you can identify all your "reachable" files by doing a BFS on your root page.

With the directional graph, you can also classify files by their in and out degree. In the example above:

/index.html     in: 1 out: 2
/temp.html      in: 1 out: 1
/error.html     in: 1 out: 0
/stray.html     in: 0 out: 1
/abandoned.html in: 0 out: 0

So, you're basically looking for files that have in = 0 that are abandoned.

Additionally, files that have out = 0 are going to be terminal pages; which may or may not be desirable on your site (as error suggests, it's an error page).

回复收藏 0 原文

习惯成性 2024-08-17 01:37:53

第 1 步：建立网站上绝对可见的页面列表。创建此列表的一种明智方法是解析日志文件以查找人们访问的页面。

步骤 2：运行一个递归查找站点拓扑的工具，从专门编写的页面（您将在站点上创建的）开始，该页面具有指向步骤 1 中每个页面的链接。可以执行此操作的一个工具是 Xenu 的链接侦探。它旨在查找死链接，但它也会列出活动链接。这可以在外部运行，因此在您的服务器上安装“奇怪”的软件不存在安全问题。您需要偶尔注意这一点，因为如果您有错误或其他任何情况，您的网站可能有无限的页面等。

步骤 3：运行一个从站点 Web 目录开始递归映射硬盘的工具。我无法立即想到其中任何一个，但是编写一个应该很简单，并且更安全，因为它将在您的服务器上运行。

步骤 4：以编程方式获取步骤 2 和 3 的结果，将 #2 与 #3 进行匹配。 #3 中而不是 #2 中的任何内容都可能是孤立页面。

注意：此技术对于受密码保护的内容效果不佳，对于严重依赖动态生成的链接的网站也效果不佳（如果链接一致，动态内容就可以）。

回复收藏 0 原文

东风软 2024-08-17 01:37:53

这里没有讽刺的评论...我感受到你的痛苦，因为我们网站的很大一部分仍然是经典的 ASP。

我不知道有什么全自动系统可以成为灵丹妙药，但我有一些可以提供帮助的想法。至少我们是这样清理我们的网站的。

首先，虽然它看起来不像是完成此类工作的工具，但我已经使用 Microsoft Viso 来帮助完成此任务。我们有Visio for Enterprise Architects，我不确定这个功能在其他版本中是否有，但是在这个版本中，你可以创建一个新文档，并且在“Web图表”文件夹下的“选择绘图类型”中，有“网站地图”选项（公制或美制单位 - 没关系）。

创建此绘图类型时，Visio 会提示您输入网站的 URL，然后为您爬网您的网站。

这应该有助于识别哪些文件是有效的。它并不完美，但我们使用它的方式是在文件系统中查找 Visio 绘图中未显示的文件，然后在 Visual Studio 中提取整个解决方案并搜索该文件名。如果我们在整个解决方案中找不到它，我们会将其移至“过时”文件夹中一个月，如果我们没有开始在网站上收到投诉或 404 错误，则将其删除。

其他可能的解决方案是使用日志文件解析器并解析最近 n 个月的日志，并以这种方式查找丢失的文件，但这本质上需要大量编码才能得出一个列表“已知良好”的文件实际上并不比 Visio 选项更好。

回复收藏 0 原文