如何在 Apache Hive 中并行化(小)数据集的查询
我正在我的部分数据集上测试最新的 Hive。我通过自定义 SerDe 读取的日志文件只有几 GB。 当我运行简单的 Group By 查询(4 个 MR 作业)时,我收到诸…
Apache Hive 中的自动化测试
我即将开始一个使用 Apache Hadoop/Hive 的项目,该项目将涉及一组 hive 查询脚本,以便为各种下游应用程序生成数据源。这些脚本似乎是某些单元测试的…
Hive 在 HDFS 中的什么位置存储文件?
我想知道如何找到 Hive 表和它们所代表的实际 HDFS 文件(或更确切地说,目录)之间的映射。我需要直接访问表文件。 Hive 将其文件存储在 HDFS 中的什…
Hive、hadoop 以及 hive.exec.reducers.max 背后的机制
在其他问题的背景下 这里 使用 hive.exec.reducers.max 指令确实让我感到困惑。 从我的角度来看,我认为 hive 致力于某种逻辑,例如,我在所需的查询…
为 Hive 中的 INSERT OVERWRITE SELECT 指定压缩编解码器
我有一个像 To populate 这样的配置单元表 CREATE TABLE beacons ( foo string, bar string, foonotbar string ) COMMENT "Digest of daily beacons, …
Hive QL 是否具有与直接在 Hadoop 上编写自己的 MapReduce 作业相同的表达能力?
换句话说, 是否有一个问题可以通过直接定义 MapReduce 作业来解决,但无法形成 Hive QL 查询? 如果是,则意味着 Hive QL 的表达能力有限,无法表达…
如何将mysql表传输到hive?
我有一个大型 mysql 表,我想将其转移到 Hadoop/Hive 表。是否有标准命令或技术将简单(但大)的表从 Mysql 传输到 Hive?该表主要存储分析数据。…
我应该如何对 s3 中的数据进行分区以便与 hadoop hive 一起使用?
我有一个 s3 存储桶,其中包含约 300GB 的日志文件(无特定顺序)。 我想使用日期时间戳对这些数据进行分区,以便在 hadoop-hive 中使用,以便与特定…
Hive 有字符串分割功能吗?
我正在寻找 Hive 中内置的字符串分割函数?例如,如果 String 是: A|B|C|D|E 那么我想要一个像这样的函数: array split(string input, char delimit…
在 Hive 上编写使用外部 java 类的自定义函数
我一直在想如何在 Hive 中做到这一点。 例如,我想在日志文件中提取一个特定字段(这在 Hive 中已经可以实现),然后我想将该字段的值映射到其他内容…
将多行合并为一个空格分隔的字符串
所以我有 5 行像这样 userid, col -------------- 1, a 1, b 2, c 2, d 3, e 我将如何进行查询,所以它看起来像这样 userid, combined 1, a b 2, c d …