如何使外部引用表或数据库可供 Hadoop MapReduce 作业使用？

发布于 2024-11-26 06:56:37 字数 524 浏览 0 评论 0原文

我正在 Hadoop MapReduce 作业中分析大量文件，输入文件为 .txt 格式。我的映射器和减速器都是用 Python 编写的。

但是，我的映射器模块需要访问外部 csv 文件的内容，该文件基本上只是一个大表，用于查找映射器正在执行的转换的参考值。

到目前为止，我只是让映射器将文件从本地目录加载到内存中，以使其可用作 Python 变量。不过，由于文件很大（几千行和几千列），因此加载时间相对较长（大约 10 秒，对于我的目的来说太长了）。问题是 Hadoop 似乎会为每个新输入文件重新执行映射器脚本，或者它将大输入文件拆分为较小的文件，导致每次新输入时我的 csv 文件都不必要地一次又一次加载到内存中 -文件已处理。

有没有办法让 Hadoop 仅加载一次文件并以某种方式使其“全局”可用？在谷歌上搜索诸如 Hive、Pig、sqlite 之类的名字，但我从未见过任何例子来检查它们是否真的对这个目的有用。

基本上，我只需要在运行 Hadoop 作业时快速访问某种数据库或字典。我的参考表的格式不一定是 CSV，我可以非常灵活地将数据转换为不同的格式。

原文

分享到QQ

分享到微博