当前位置：文江博客话题详情

Linux c shared-memory

用于管理共享映射文件的库或工具

发布于 2024-12-14 23:47:05 字数 393 浏览 3 评论 0原文

免责声明：这可能是一个研究问题，因为我找不到我要找的东西，而且它相当具体。

问题：我有一个自定义搜索应用程序，需要读取 100K 到 10M 个文件，每个文件大小在 0.01MB 到大约 10.0MB 之间。每个文件包含一个数组，可以通过 mmap 直接将其作为数组加载。我正在寻找一种解决方案，可以在需要文件之前将文件预取到 RAM 中，并且如果系统内存已满，则弹出已处理的文件。

我知道这听起来很像操作系统内存管理和 memcached 之类的东西的组合。我实际上正在寻找类似 memcached 的东西，它不返回键的字符串或值，而是返回所选数组的开头地址。另外，（这是一个不同的主题）我希望能够管理共享内存，使得 NUMA 机器上 CPU 核心和 RAM 之间的距离最短。

我的问题是：“这样的工具/库是否已经存在？”

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

锦上情书 2024-12-21 23:47:05

您的问题与这个相关，

我不确定您需要找到一个图书馆。您只需要了解如何有效地使用系统调用即可。

我相信 readahead 系统调用可以帮助您。

回复收藏 0 原文

万人眼中万个我 2024-12-21 23:47:05

事实上，您有很多很多文件（也许太多）。我希望您的文件系统足够好，或者它们位于多个目录中。如果没有适当调整，拥有数百万个文件可能会成为一个问题（但我不敢在这方面提供帮助）。

我不知道是不是你的应用程序写了&读取那么多文件。也许您可能会考虑切换到快速的DBMS，例如PostGresQL 或 MySQL，或者您可以使用<一href="http://www.gnu.org.ua/software/gdbm/" rel="nofollow">GDBM。

回复收藏 0 原文

深海夜未眠 2024-12-21 23:47:05

我曾经为搜索引擎类型的应用程序做过此操作。它使用 LRU 链，该链也可以通过文件 ID 和内存地址 IIRC 进行寻址（通过哈希表）。每次访问时，热门项都会被重新定位到 LRU 链的头部。当内存紧张时（mmap可能失败......）LRU链的尾部被取消映射。

该方案的缺陷是程序可能会因页面错误而被阻止。由于它是单线程的，所以它确实被阻塞了。将其更改为多线程架构将涉及通过锁和信号量来保护哈希和 LRU 结构。

之后，我意识到我正在做双缓冲：操作系统本身有一个完美的LRU磁盘缓冲机制，这可能比我的更聪明。只需对每个请求打开（）或 mmap（）每个文件只需一次系统调用，并且（考虑到最近的活动）与缓冲层一样快，甚至更快。

wrt DBMS：使用 DBMS 是一种简洁的设计，但是仅仅为了获取第一个数据块，您就需要最少 3 次系统调用的开销。它肯定会（总是）阻塞。但它非常适合多线程设计，并让您摆脱锁和缓冲区管理的痛苦。

回复收藏 0 原文

~没有更多了~

关于作者

一曲爱恨情仇

暂无简介

文章

评论

28 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

凯凯我们等你回来

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文