使用 ifstream 在两个线程中处理同一文件

发布于 2024-11-11 14:08:06 字数 585 浏览 6 评论 0原文

我的应用程序中有一个输入文件，其中包含大量信息。按顺序读取它，并且一次仅读取一个文件偏移量不足以满足我的应用程序的使用。理想情况下，我希望有两个线程，它们具有从同一文件的两个唯一文件偏移量读取的独立且不同的 ifstream。我不能只启动一个 ifstream ，然后使用其复制构造函数复制它（因为它不可复制）。 那么，我该如何处理这个问题？

我立即想到两种方法，

为第二个线程构造一个新的ifstream，在同一个文件上打开它。
在两个线程之间共享打开的 ifstream 的单个实例（例如使用 boost::shared_ptr）。当线程获得时间片时，寻求当前线程当前感兴趣的适当文件偏移量。

这两种方法中的一种是首选吗？

还有我还没有想到的第三种（或第四种）选择吗？

显然，我最终受到硬盘驱动器的限制来回旋转，但我有兴趣利用（如果可能的话），是同时在两个文件偏移处进行一些操作系统级磁盘缓存。

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沐歌 2024-11-18 14:08:06

两个 std::ifstream 实例可能是这里的最佳选择。现代 HDD 针对大型 I/O 请求队列进行了优化，因此同时从两个 std::ifstream 实例读取应该会提供相当好的性能。

如果您只有一个 std::ifstream，您将不得不担心对其的同步访问，而且它可能会破坏操作系统的自动顺序访问预读缓存，从而导致性能较差。

回复收藏 0 原文

书间行客 2024-11-18 14:08:06

在两者之间，我更喜欢第二个。同一文件的两个打开可能会导致文件之间的视图不一致，具体取决于底层操作系统。

对于第三个选项，将引用或原始指针传递到另一个线程中。只要语义是一个线程“拥有”istream，原始指针或引用就可以了。

最后请注意，在绝大多数硬件上，加载大文件时，磁盘是瓶颈，而不是 CPU。使用两个线程会使情况变得更糟，因为您将顺序文件访问转变为随机访问。典型的硬盘顺序访问速度可能为 100MB/s，但随机访问速度最高可达 3 或 4 MB/s。

回复收藏 0 原文

白馒头 2024-11-18 14:08:06

其他选项：

内存映射文件，根据需要创建任意数量的内存 istream 对象。（istrstream 对此很有用，istringstream 则不然）。

回复收藏 0 原文

反差帅 2024-11-18 14:08:06

这实际上取决于您的系统。现代系统通常会读取
前面；在文件内查找可能会抑制这种情况，所以应该
绝对要避免。

也许值得尝试一下预读在您的系统上是如何工作的：
打开文件，然后依次读取它的前半部分，看看如何
需要很长时间。然后打开它，寻找中间，然后阅读第二个
一半依次进行。（在我过去见过的一些系统上，一个简单的
任何时候，seek 都会关闭预读。）最后，打开它，然后
读取所有其他记录；这将使用相同的方法模拟两个线程
文件描述符。（对于所有这些测试，使用固定长度记录，并且
以二进制模式打开。还采取一切必要的措施来确保
文件中的所有数据都已从操作系统的缓存中清除
开始测试——Unix下，复制10或20GB的文件
/dev/null 通常就足够了。

这会给你一些想法，但要真正确定的是，最好的
解决方案是测试真实案例。如果分享一个我会感到惊讶
单个 ifstream （因此是单个文件描述符），并且不断
寻求，赢得，但你永远不知道。

我还推荐系统特定的解决方案，例如 mmap，但如果您有
获得了这么多数据，您很可能无法绘制它
无论如何，一劳永逸。（您仍然可以使用 mmap，映射它的部分
一次，但它变得更加复杂。）

最后，是否有可能将数据分割成
文件更小？这可能是最快的解决方案。（理想情况下，
这将在数据生成或导入到
系统。）