c++繁重的数据处理和分页

发布于 2024-10-01 12:03:22 字数 488 浏览 8 评论 0原文

我正在编写一个应尽可能实时处理大量数据（1-10 GB 之间）的应用程序。

数据存在于硬盘上的多个二进制数据文件中，每个文件大小在几 kb 到 128 MB 之间。当该过程开始时，首先确定实际需要哪些数据。然后通过用户界面获取一些用户设置，然后逐块处理数据，其中总是将文件加载到内存中，进行处理，然后从内存中清除。这个处理应该很快，因为用户可以更改一些设置，然后重新处理相同的数据，并且这个用户交互应该尽可能流畅。

现在从磁盘加载是相当大的瓶颈，我想在决定使用哪些文件的阶段就预加载数据。但是 - 如果我预加载太多数据，操作系统将使用虚拟内存，并且我将出现大量页面错误，从而使处理速度更慢。

如何确定要预加载多少数据以保持较低的页面错误？我可以以某种方式影响操作系统我想保留在内存中的数据吗？

谢谢！

//编辑：我目前在 Windows 7 64 上运行（但是该应用程序是 32 位），并且该应用程序不需要在任何计算机上运行 - 只需在特定计算机上运行，因为这是一个研究项目。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

把昨日还给我 2024-10-08 12:03:22

对于一般情况下对大型二进制文件的随机访问，我会考虑使用本机操作系统文件内存映射 API。从性能角度来看，这很可能是最有效的解决方案，大多数操作系统中还有一个系统 API 可以用来锁定内存中的页面，但我不会使用它。当做更具体的事情时，在大多数情况下可以有一个智能索引来准确地知道什么在哪里，并由此解决大多数性能瓶颈。

是的，这并不神奇，如果您需要所有 10G RAM 可用（因为它们的访问频率相同），请在您的机器上选择 16GB RAM。

回复收藏 0 原文