当前位置：文江博客话题详情

tree mpi filesystems hpc stat

遍历分布式文件系统上的文件

发布于 2024-11-27 18:33:34 字数 571 浏览 1 评论 0原文

我有一个包含几亿个文件（几拍字节）的文件系统，我想获得 stat 将返回的几乎所有内容并将其存储在某种数据库中。现在，我们有一个 MPI 程序，它从中央队列和工作节点提供目录名称，这些节点通过 stat 调用来攻击 NFS（它可以在不费力的情况下处理这个问题）。然后工作节点访问 postgres 来存储结果。

虽然这有效，但速度非常慢。在现代 30 节点集群上，单次运行将需要 24 小时以上。

有没有人有任何想法来分割目录结构而不是使用集中式队列（我的印象是，这方面的精确算法是 NP 困难的）？另外，我一直在考虑用 MongoDB 的带有多个路由器的自动分片之类的东西来替换 postgres（因为 postgres 目前是一个巨大的瓶颈）。

我基本上只是在寻找有关如何改进此设置的一般想法。

不幸的是，使用像 2.6 内核审计子系统这样的东西可能是不可能的，因为要让它在每台访问该文件系统的机器上运行是极其困难的（以政治方式）。

如果重要的话，使用此文件系统的每台机器（几千台）都运行 linux 2.6.x。

这样做的实际主要目的是查找早于特定日期的文件，以便我们能够删除它们。我们还想收集有关文件系统如何使用的一般数据。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

极度宠爱 2024-12-04 18:33:34

扩展我的评论。

将文件放在中央位置是最大的瓶颈之一。如果您无法通过其他方式优化文件系统访问时间，那么最好的方法可能是让一个（或几个）工作人员执行 stat 调用。通过添加多个工作线程不会提高性能，因为它们都访问相同的文件系统。

因此，我认为将工作进程放在文件系统所在的节点上（而不是通过 NFS 访问它）应该会给您带来巨大的性能提升。

另一方面，可以通过更改数据库引擎来优化数据库写入。正如评论中所预期的那样，Redis 键值模型更适合此类任务（是的，它相当快)：你可以使用它的哈希值type 使用完整路径名作为键来存储 stat 调用的结果。

此外，redis 还将在不久的将来支持集群。

回复收藏 0 原文

疯到世界奔溃 2024-12-04 18:33:34

我们最终为此创建了自己的解决方案（使用 redis）。我们已将运行时间从大约 24 小时缩短到大约 2.5 小时。

http://github.com/hpc/libcircle 用于分发工作。
http://github.com/hpc/purger 用于控制一切的工具。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文