如何在 Perl 中执行类似 SQL 的 Join？

发布于 2024-12-24 02:48:32 字数 461 浏览 2 评论 0原文

我必须通过组合两个不同的文件来处理一些数据。它们都有两列，它们将形成一个主键，我可以用它来并排匹配它们。问题中的文件很大（大约 5GB，有 2000 万行），所以我需要一个高效的代码。我该如何在 Perl 中做到这一点？

我举一个例子：

如果文件 A 包含列

id, name, lastname, dob, school

文件 B 包含列，

address, id, postcode, dob, email

我需要通过匹配两个文件中的 id 和 dob 来连接这两个文件以获得输出文件将会有以下列：

 id, name, lastname, dob, school, address, postcode, email

原文

I have to process some data by combining two different files. Both of them have two columns that would form a primary key that I can use to match them side-by-side. The files in questions are huge (around 5GB with 20 million rows) so I would need an efficient code. How would I do this in Perl?

I give an example:

If File A contains columns

id, name, lastname, dob, school

File B contains columns

address, id, postcode, dob, email

I would need to join these two files by matching id and dob in the two files to have an output file that would have the columns:

 id, name, lastname, dob, school, address, postcode, email

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

唱一曲作罢 2024-12-31 02:48:32

我想我只是创建一个新的 mysql/sqlite/任何数据库并插入行。应该是 ~20 行 Perl。

当然，这需要轻松访问数据库。

我猜您还可以按感兴趣的字段对文件进行排序，然后对于 file1 中的每一行查找并打印 file2 中的匹配行。

回复收藏 0 原文

往日 2024-12-31 02:48:32

执行此操作的老式方法是使用系统实用程序按键顺序对两个文件进行排序，然后逐行匹配它们。读取两个文件，如果键匹配则输出数据。如果它们不匹配，请使用较小的密钥读取文件，直到它们匹配。如果文件达到 eof，则将文件的密钥设置为无限高。当两个键都无限高时，你就完成了。

回复收藏 0 原文

怀里藏娇 2024-12-31 02:48:32

或者，仔细阅读这篇精彩的 Techrepublic 文章- 不过，您仍然可能需要 5G 内存。我想知道使用 unix/linux CLI 排序/连接实用程序会带您去哪里，提高效率。只是一个想法。

回复收藏 0 原文

┼── 2024-12-31 02:48:32

我实际上没有尝试过这个，但更具创意的解决方案可能是：

读取每个文件一次，并在唯一的 id+dob 组合及其在文件中的位置之间创建一个映射。使用tell()。
在 perl 中创建映射
使用映射中的位置和 sysread()< 从文件中读取实际数据/a>
将数据写入新文件

回复收藏 0 原文

岁吢 2024-12-31 02:48:32

您还可以使用我已经使用了 3 年的 CPAN 模块 Set::Relation，它旨在执行类似的操作，让您可以执行所有 SQL 功能，例如 Perl 中的 join。为每个文件创建一个 Set::Relation 对象，然后使用 join() 方法。也就是说，该模块的实现会将所有操作数和结果保留在内存中，因此它受到 RAM 的限制。但是您仍然可以查看其源代码以了解 join() 的工作原理，然后基于它实现更有效的版本以达到您的目的。

回复收藏 0 原文