Hive CLI:可能的退出代码及其含义是什么?
我正在开发一个 shell 脚本,它使用 Hive CLI 客户端来执行一些 HQL 脚本。有时这些调用可能会生成异常,在我的脚本中,我必须检查何时发生这种情况。…
如何让 Hive 与 bz2 一起工作?
由于 bz2 是可拆分的并且节省空间,因此我计划以 bzip2 格式存储表数据。 但它似乎无法识别压缩格式。 gzip 格式没问题。 我使用的代码如下所示: CRE…
hive 是否为每条记录实例化一个新的 UDF 对象?
假设我正在构建一个名为 StaticLookupUDF 的 UDF 类,该类必须在构建期间从本地文件加载一些静态数据。 在这种情况下,我想确保我复制的工作不会超过…
有关 Amazon EMR 上的流式作业流程的问题
我必须使用 Amazon EC2 + S3 + RDS + EMR 制作一个相当复杂的数据处理系统,我有一些一般性问题,希望您能帮助我: 我需要使用 R,然后我必须使用 Str…
用于数据分析的 NoSql 或 MySQL
我们有一个集群(hadoop、pig),其数据量为 350Gb(每周增加几 GB)。 所有这些数据都需要可供分析使用。 我们有一个具有星型模式的 Msyql 解决方案…
使用 FileFormat v Serde 读取自定义文本文件
Hadoop/Hive 新手在这里。我正在尝试在 Hive 中使用以自定义文本格式存储的数据。我的理解是,您可以编写自定义 FileFormat 或自定义 SerDe 类来执行…
使用 Hive 自定义输入格式
更新:好吧,事实证明,以下代码不起作用的原因是我使用的是较新版本的 InputFormat API (import org.旧的 apache.hadoop.mapred 与新的 import org.a…
Brisk TaskTracker 未在多节点 Brisk 设置中启动
我有一个 3 节点 Brisk 集群 (Briskv1.0_beta2)。 Cassandra 工作正常(所有三个节点都能看到对方,并且数据在环上保持平衡)。我使用 brisk cassandr…
如何编写子查询并使用“In” Hive 中的子句
如何在 Hive 中使用 In 子句 我想在 Hive 中写这样的东西 从 y 中选择 x,其中 yz 按 x 顺序(从 y 中选择不同的 z); 但我没有找到任何方法可以做到…
Hive 和 get_json_object 奇怪的行为
我正在使用 get_json_object 运行 hive 查询来从 HDFS 中的文件读取 json 字符串。 我遇到了一些奇怪的行为: 如果 json 如下: {"data":{"oneSlash":…
hive sql 聚合
我在 Hive 中有两个表,t1 和 t2 >describe t1; >date_id string >describe t2; >messageid string, createddate string, userid int > select * from…
如何在不删除源文件的情况下从HDFS加载数据到hive?
当使用命令将数据从 HDFS 加载到 Hive 时 LOAD DATA INPATH 'hdfs_file' INTO TABLE tablename; ,看起来像是将 hdfs_file 移动到 hive/warehouse 目…
Hive:动态分区添加到外部表
我正在运行 hive 071,处理具有以下目录布局的现有数据: -表名 - d=(例如2011-08-01) -d=2011-08-02 -d=2011-08-03 ...等等 在每个日期下我都有日…
如何将文件从 S3 复制到 Amazon EMR HDFS?
我正在 EMR 上运行 Hive, 并且需要将一些文件复制到所有EMR实例中。 据我了解,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文…
Hive 如何决定何时使用 MapReduce、何时不使用?
举个简单的例子, select * from tablename; 地图缩减不会启动,但 select count(*) from tablename; 会启动。决定何时使用MapReduce(通过Hive)的一…