高效的文件 I/O 以及字符串到浮点数的转换

发布于 2024-08-17 12:26:21 字数 366 浏览 7 评论 0 原文

我有一些巨大（几千兆字节）的 ASCII 文本文件，我需要逐行读取它们，将某些列转换为浮点，并对这些数字执行一些简单的操作。这是非常简单的事情，只是我认为必须有一种方法来加快速度。该程序永远不会使用相当于 100% 的 CPU 内核，因为它花费大量时间等待 I/O。同时，它花费足够的时间进行计算而不是 I/O，因此它仅执行约 8-10 MB/秒的原始磁盘 I/O。我发现我的硬盘比这要好得多。

在单独的线程中进行 I/O 和处理可能会有帮助吗？如果是这样，实现这一点的有效方法是什么？一个重要的问题是如何分配内存来保存每一行，这样我就不会出现瓶颈。

编辑：我现在正在使用 D 编程语言，版本 2 标准库，主要是高级函数。 std.stdio.File 使用的缓冲区大小为 16 KB。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

淡淡の花香 2024-08-24 12:26:21

如果您没有达到 100% CPU，那么您就会受到 I/O 限制，并且不会通过多线程看到太多/任何改进 - 您只会有几个线程等待 I/O。事实上，如果他们访问文件的不同部分，您可能会引入磁盘查找并使事情变得更糟。

首先看看更简单的事情：能否增加可用于 I/O 的缓冲区 RAM 量？（例如，在 C++ 中，FILE 对象的标准 I/O 缓冲区很小（例如 4kB），设置较大的缓冲区（例如 64kB）可以对吞吐量产生巨大的影响）。

您能否在 I/O 请求中使用更大的缓冲区大小：例如，将 64KB 的原始数据读入一个大缓冲区，然后自己处理，而不是一次读取一行或一个字节。

你有输出任何数据吗？通过将其缓存在 RAM 中而不是立即将其写回磁盘，您可以将 IO 限制为纯粹读取输入文件，并帮助事情进展得更快。

您可能会发现，一旦加载大量数据缓冲区，您就开始受到 CPU 限制，此时您可以考虑多线程 - 一个线程读取数据，其他线程处理数据。

回复收藏 0 原文

羁绊已千年 2024-08-24 12:26:21

通常，操作系统会尝试提前读取，如果不受 CPU 限制，您应该会接近硬盘限制速度。

原因可能是：

大文件碎片化（您可以对卷进行碎片整理并检查是否工作得更好）
操作系统不使用预读（作为解决方案：在 Windows 下，您可以使用 CreateFile 并带有将要扫描文件的标志）
您没有使用有效的缓冲（例如，如果您一次只从操作系统文件句柄读取几个字节，那么速度会很慢。（您可能会尝试一次读取更大的块）

当您受到CPU限制时，您应该开始寻找更有效的数据解析。

回复收藏 0 原文

萤火眠眠 2024-08-24 12:26:21

如果您有足够的 RAM，您可以将整个文件读入字符串，在行分隔符上对其进行标记，并根据需要处理标记。

在 java 中，您可以使用 StringBuilder 对象将文件内容读入其中。您还希望使用以下内容启动具有足够内存限制（本例中为 2GB）的 jvm：

java -Xmx 2048 -Xms 2048 -jar MyMemoryHungryApp.jar

如果您不想将整个文件读入字符串中，您可以迭代地读取它分批次进行处理。

事实上，根据文件格式的详细信息，您可能可以使用 CSVReader 一个开源 Java 包 (项目页面）使用 readAll() 方法将文件读入内存，最终会得到一个 List 你可以骑着它去城里:)。

If you've got enough RAM, you could read the whole file into a string, tokenize it on line delimiters and process the tokens however you want.

In java you would use a StringBuilder object to read the file contents into it. You'd also want to launch the jvm with a sufficient memory limit (2GB in this example) using something like:

java -Xmx 2048 -Xms 2048 -jar MyMemoryHungryApp.jar

If you don't want to read the whole file into a string you could iteratively read it in batches and process the batches.

In fact, depending on the details of your file format, you could probably use CSVReader an open source Java package (project page) to read your file into memory ala the readAll() method, and you'll end up with a List<String[]> and you can go to town on it :).