许多文本文件中存在大量数据 - 如何处理？

发布于 2024-09-03 15:17:29 字数 522 浏览 15 评论 0原文

我有大量的数据（几 TB）并且正在积累......它们包含在许多制表符分隔的平面文本文件中（每个大约 30MB）。大多数任务涉及读取数据并根据一系列谓词语句对观察/行进行聚合（求和/平均 + 附加转换），然后将输出保存为文本、HDF5 或 SQLite 文件等。我通常使用 R对于这样的任务，但我担心这可能有点大。一些候选解决方案是用

C 编写整个内容（或者 Fortran）
将文件（表）导入到直接关系数据库然后在 R 或 Python 中提取块（有些变换不是适合纯 SQL 解决方案）
用 Python 编写整个内容

（3）是一个坏主意吗？我知道你可以用 Python 封装 C 例程，但在这种情况下，由于没有任何计算上的限制（例如，需要多次迭代计算的优化例程），我认为 I/O 可能与计算本身一样成为瓶颈。您对进一步的考虑或建议有何建议？谢谢

编辑感谢您的回复。关于 Hadoop 似乎存在相互矛盾的观点，但无论如何我都无法访问集群（尽管我可以使用几台未联网的机器）...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

玩套路吗 2024-09-10 15:17:29

(3) 不一定是一个坏主意——Python 可以轻松处理“CSV”文件（尽管 C 代表逗号，制表符作为分隔符也同样容易处理），当然也能获得同样多的带宽像任何其他语言一样在 I/O 操作中。至于其他建议，除了快速计算（根据您的陈述您可能不需要）之外，numpy 还提供了非常方便、灵活的多维数组，这对于您的任务来说可能非常方便；标准库模块 multiprocessing 允许您利用多个核心来执行任何易于并行化的任务（这一点很重要，因为现在几乎每台机器都有多核；-）。

回复收藏 0 原文

时光清浅 2024-09-10 15:17:29

好吧，为了与众不同，为什么不 R 呢？

您似乎了解 R，因此您可以快速获得工作代码
每个文件 30 mb 在具有几 GB 内存的标准工作站上并不大，是
read.table 的 read.csv() 变体如果通过 colClasses 参数指定列的类型，() 会非常高效：而不是估计转换类型，这些将有效地处理
这里的瓶颈是来自磁盘的 I/O对于每种语言
R 都有多核来在机器上设置并行处理多核（看起来类似于 Python 的多处理）
如果您想使用问题的“令人尴尬的并行”结构，R 有几个非常适合数据并行问题的包：例如雪和 foreach 都可以部署在一台机器上，也可以部署在一组联网的机器上。

回复收藏 0 原文

錯遇了你 2024-09-10 15:17:29

看看迪斯科。它是一个轻量级分布式MapReduce引擎，用大约2000行Erlang编写，但专门为Python开发而设计。它不仅支持处理数据，还支持可靠地存储复制。他们刚刚发布了 0.3 版本，其中包括索引和数据库层。

回复收藏 0 原文

有深☉意 2024-09-10 15:17:29

对于 TB 级的数据，您无论如何都希望在许多磁盘上并行读取；所以不妨直接进入 Hadoop。

使用Pig或Hive查询数据；两者都对用户定义的转换提供广泛的支持，因此您应该能够使用自定义代码来实现您需要执行的操作。

回复收藏 0 原文

葮薆情 2024-09-10 15:17:29

我很幸运在 Amazon 的 Elastic Map Reduce 上使用 R 和 Hadoop。使用 EMR，您只需为您使用的计算机时间付费，AMZN 负责启动和关闭实例。确切地说，如何在 EMR 中构建工作实际上取决于您的分析工作流程的结构。例如，一项作业所需的所有记录是否完全包含在每个 csv 中，或者您是否需要每个 csv 中的位来完成分析？

以下是一些您可能会觉得有用的资源：