当前位置：文江博客话题详情

CSV 随机访问； C#

发布于 2024-10-14 19:58:20 字数 500 浏览 6 评论 0原文

我有一个 10GB 的 CSV 文件，它本质上是一个巨大的方阵。我正在尝试编写一个可以尽可能有效地访问矩阵的单个单元格的函数，即矩阵[12345,20000]。

鉴于其大小，显然不可能将整个矩阵加载到二维数组中，我需要以某种方式直接从文件中读取值。

我已经用 Google 搜索过使用 FileStream.Seek 查看文件随机访问，但不幸的是，由于变量舍入，每个单元格不是固定宽度。我不可能通过某种算术寻找特定字节并知道我正在查看哪个单元格。

我考虑扫描文件并为每行第一个字节的索引创建一个查找表。这样，如果我想访问矩阵[12345,20000]，我将寻找第 12345 行的开头，然后扫描整行，计算逗号，直到到达正确的单元格。

我正想尝试这个，但是其他人有更好的想法吗？我确信我不会是第一个尝试处理这样的文件的人。

干杯

编辑：我应该注意到该文件包含一个非常稀疏的矩阵。如果解析 CSV 文件的速度太慢，我会考虑将文件转换为更合适、更易于处理的文件格式。存储稀疏矩阵的最佳方法是什么？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

深海不蓝 2024-10-21 19:58:20

我已经使用 Lumenworks CSV 阅读器来读取相当大的 CSV 文件，可能值得快速查看一下它解析文件的速度。

Lumenworks CSV

回复收藏 0 原文

世界等同你 2024-10-21 19:58:20

首先，您想如何引用特定行？它是该行的索引，以便您有另一个表或其他可以帮助您知道您感兴趣的行的内容吗？或者是通过id什么的？

这些想法浮现在脑海中

你的方法
二分搜索。假设您有平均长度（大小/行），您可以使用二分搜索来查找行，假设该行中有一个有序的标识符，并且可以告诉您是否命中或未命中。
将其加载到数据库中！顺便问一下，是什么阻止你这样做？您甚至可以使用 SQL Express（免费），并且为了绕过大小限制，您可以将数据分片到多个数据库。

回复收藏 0 原文

锦欢 2024-10-21 19:58:20

索引文件将是你能做的最好的事情。我敢打赌。由于行的大小未知，除了扫描文件或有索引之外，无法直接跳到该行。

唯一的问题是你的索引有多大。如果它太大，您可以通过仅每 5 行（例如）建立索引并在 5 行范围内扫描来缩小它。

回复收藏 0 原文

壹場煙雨 2024-10-21 19:58:20

预处理文件，使字段具有固定宽度。然后你就可以轻松地进行随机阅读。

通过过去执行类似的操作，您应该能够编写一些简单的代码，从本地磁盘读取 10G 可变宽度文件，并在几分钟（~20）分钟内将 10G 固定宽度文件写入本地磁盘。前期投资是否获得回报取决于您需要执行的随机读取次数以及要读取的文件更改的频率。

回复收藏 0 原文

Saygoodbye 2024-10-21 19:58:20

如果您创建了 12345 个使用延迟实例化读取的单独文件会怎样？仅当需要数据时才会读取每个文件。如果数据完全稀疏，您可以创建一个具有 IsEmpty bool 属性的数据结构。

您是否需要一遍又一遍地访问同一个元素，或者是否只需要读取每个元素一次？

回复收藏 0 原文

平生欢 2024-10-21 19:58:20

我不同意您不应将文件加载到 RAM 中，特别是如果您使用 64 位操作系统。

分配大小为 12345x20000 的矩阵应该不是问题：双精度时大约只有 1.9 GB。事实上，即使大小更大，我仍然会在64位平台下推荐这种方法（参见“虚拟内存”）。

其次，您声明您的矩阵是稀疏的，因此您可以加载到 RAM 中，但使用稀疏表示来节省一些内存。

总之，如果您的应用程序需要对矩阵进行多次访问并且性能有些重要，那么将其放入 RAM 绝对是我最喜欢的方法。

回复收藏 0 原文

~没有更多了~

关于作者

寒江雪…

暂无简介

0 文章

0 评论

25 人气

关注发私信

苦中寻乐

文章 0 评论 0

关注

lueluelue

文章 0 评论 0

关注

嗼ふ静

文章 0 评论 0

关注

王权女流氓

文章 0 评论 0

关注

与花如笺

文章 0 评论 0

关注

残酷

文章 0 评论 0

友情链接

文江博客

CSV 随机访问； C#

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

CSV 随机访问； C#

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（6）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。