当前位置：文江博客话题详情

检查数据库表中引用的文件的物理存在

发布于 2024-12-05 15:12:14 字数 325 浏览 4 评论 0原文

我们有一个相当大的表，其中包含文档信息以及指向文件系统上的文件的文件路径。几年后，我们注意到磁盘上有一些文件未在数据库表中引用，反之亦然。

由于目前我正在学习 Clojure，我认为制作一个可以查找数据库和文件系统之间差异的小实用程序会很好。当然，由于我是初学者，我陷入了困境，因为有超过 600 000 个文档，显然我需要一些性能更高、内存消耗更少的解决方案:)

我的第一个想法是生成包含所有文件的扁平文件系统树列表，并将其与列表进行比较从数据库中，如果文件不存在，则放入单独的列表“不存在”中，如果某些文件存在于 HDD 上而不是数据库中，则将其移动到某个转储目录。

有什么想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

时光无声 2024-12-12 15:12:15

作为一个草图，以下是您如何根据数据库检查文件系统，以您满意的大小为单位：

(->> (file-seq (java.io.File. "/"))
     (remove (memfn isDirectory))
     (partition 20)
     (map (fn [files] (printf "Checking %d files against db...\n" (count files))))
     (take 2))

(Checking 20 files against db...
Checking 20 files against db...
nil nil)

不使用 printf，而是针对文件列表进行某种数据库检查。

As a sketch, here's how you could check the filesystem against the database, in chunks of whatever size you're happy with:

(->> (file-seq (java.io.File. "/"))
     (remove (memfn isDirectory))
     (partition 20)
     (map (fn [files] (printf "Checking %d files against db...\n" (count files))))
     (take 2))

(Checking 20 files against db...
Checking 20 files against db...
nil nil)

Instead of using printf, do some kind of database checks against the list of files.

回复收藏 0 原文

冰雪之触 2024-12-12 15:12:15

我建议根据您对性能与内存的偏好选择以下三个选项之一：

内存密集型：使用调用 File.listFiles 的递归方法将所有文件放入列表中。然后将列表与数据库进行比较。
IO 密集型解决方案：针对数据库一次递归地检查每个文件。
中间解决方案：读取一个目录中的所有文件，将它们与数据库进行比较。在任何子目录上递归并重复。与选项 1 具有相同数量的 IO 调用，但每次仅在内存中保存一个分支 + 一个目录的文件路径。

回复收藏 0 原文

~没有更多了~