当前位置：文江博客话题详情

运行时关键，C 中 CSV 文件的读取操作

发布于 2024-10-17 03:32:07 字数 375 浏览 2 评论 0原文

有没有一种方法可以编写一种快速、有效的方式来读取 csv 文件？[这里要注意的一点是：我说的是一个包含一百万行以上的 csv 文件]

运行时间是这里的关键指标。

互联网上的一项资源集中于使用二进制文件操作来批量读取。但我确信，如果它对读取 CSV 文件有帮助，

还有其他方法，例如 Robert Gamble 编写的 SourceForge 代码。有没有办法使用本机函数来编写它？

编辑：让我们以更清晰、更好的方式分割整个问题：

是否有一种有效的（运行时关键的）方法来读取 C 中的文件？（在本例中是一百万行长的 .csv 文件）
是否有一种快速有效的方法来解析 csv 文件？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（4）

苍景流年 2024-10-24 03:32:07

没有一种方法可以始终最快地读取和解析任何类型的文件。但是，您可能想要为 CSV 构建 Ragel 语法；这些往往相当快。您可以将其调整为适合您的特定 CSV 类型（逗号分隔、; 分隔、仅数字等），并且可能会跳过您不会使用的任何数据。我对特定于数据集的 SQL 解析器有很好的经验，这些解析器可以跳过大部分输入（数据库转储）。

批量读取可能是一个好主意，但您应该根据实际数据来衡量它是否真的比 stdio 缓冲更快。在 Windows 上使用二进制 I/O 可能会加快速度，但随后您需要在其他地方处理换行符。

回复收藏 0 原文

风向决定发型 2024-10-24 03:32:07

根据我的经验，CSV 文件的解析（即使是高级解释语言）通常也不是瓶颈。通常大量数据会占用大量空间； CSV 文件很大，大部分加载时间是 I/O，即硬盘将大量数字读取到内存中。

所以我强烈的建议是考虑压缩 CSV。 gzip 的工作非常高效，它能够即时压缩和恢复 CSV 流，通过大大减小文件大小和 I/O 时间来加快保存和加载速度。

如果您在 Unix 下进行开发，您可以尝试此操作，而无需任何额外代码，并受益于通过 gzip -c 和 gunzip -c 管道 CSV 输入和输出。试试吧——对我来说，它使速度加快了数十倍。

回复收藏 0 原文

樱花细雨 2024-10-24 03:32:07

使用 setvbuf 将输入缓冲区设置为比默认值大得多的大小。这是在 C 语言中唯一可以提高读取速度的方法。还要进行一些时序测试，因为会有一个收益递减点，超过这个点就没有必要增加缓冲区大小。

在 C 之外，您可以首先将该 .CSV 放入 SSD 驱动器，或将其存储在压缩文件系统上。

回复收藏 0 原文

困倦 2024-10-24 03:32:07

您所能期望的最好的结果是将大块文本拖入内存（或“内存映射”文件），并在内存中处理文本。

效率中的棘手问题是文本行是可变长度记录。一般来说，读取文本直到找到行尾终止符。一般来说，这意味着读取一个字符，并检查eol。许多平台和库尝试通过读取数据块并在数据中搜索eol来提高效率。

您的 CSV 格式使问题进一步复杂化。在 CSV 文件中，字段是可变长度记录。再次搜索终止字符，例如逗号、制表符或竖线。

如果您想要更好的性能，则必须将数据布局更改为固定字段长度和固定记录长度。如有必要，请填充字段。应用程序可以删除额外的填充。就读取而言，固定长度记录非常高效。只需读取 N 个字节。不扫描，只是转储到某处的缓冲区中。

固定长度字段允许随机访问记录（或文本行）。字段的索引是恒定的并且可以很容易地计算。无需搜索。

总之，可变长度记录和字段本质上并不是最有效的数据结构。时间被浪费在寻找终端字符上。固定长度记录和固定长度字段更有效，因为它们不需要搜索。

如果您的应用程序是数据密集型的，也许重组数据将使程序更加高效。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

linfzu01

文章 0 评论 0

§对你不离不弃

文章 0 评论 0

可遇━不可求

文章 0 评论 0

枕梦

文章 0 评论 0

qq_3LFa8Q

文章 0 评论 0

JP

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文