如何将文件从 S3 复制到 Amazon EMR HDFS?
我正在 EMR 上运行 Hive, 并且需要将一些文件复制到所有EMR实例中。 据我了解,一种方法是将文件复制到每个节点上的本地文件系统,另一种方法是将文…
Hive 如何决定何时使用 MapReduce、何时不使用?
举个简单的例子, select * from tablename; 地图缩减不会启动,但 select count(*) from tablename; 会启动。决定何时使用MapReduce(通过Hive)的一…
Hive 中特定列的区别
我正在运行 Hive 071 我有一个表,包含多行,具有相同的列值,例如 | x| y | | 1 | 2 | | 1 | 3 | | 1 | 4 | | 2 | 2 | | 3 | 2 | | 3 | 1 | 我想让 x…
Hive 中特定列的区别
我正在运行 Hive 071。 我有一个表,有多行,具有相同的列值。 x | y | --------- 1 | 2 | 1 | 3 | 1 | 4 | 2 | 2 | 3 | 2 | 3 | 1 | 我想让 x 列唯一…
我的Hive-UDF怎么了?如何设置hive的map号?
我使用Hadoop-Hive来分析apache日志来统计访问特征。我写了一个名为GetCity的UDF来将remote_ip转换为城市名称,但是当我运行“select GetCity(remote_…
如何将unix纪元时间转换为hive中的日期字符串
我有一个包含时间戳列的日志文件。时间戳采用 unix 纪元时间格式。 我想根据时间戳创建一个分区,其中包含年、月和日分区。 到目前为止,我已经做到了…
hive 中是否有任何函数可以将纪元时间转换为标准日期?
to_date 函数将此“1970-11-01 00:00:00”作为输入并返回“1970-11-01”。 但我有纪元时间作为输入。如何将其转换为标准日期格式? 有一个函数可以将…
多卷&使用 Hadoop 限制磁盘使用
我正在使用 Hadoop 来处理大量数据。我设置了一个hadoop节点来使用多个卷:其中一个卷是具有10To磁盘的NAS,另一个是存储容量为400 GB的服务器本地磁…
使用 unix sort、uniq 和 awk 替换 SQL 查询
目前,我们在 HDFS 集群上有一些数据,我们在这些数据上使用 Hive 生成报告。基础设施正在退役,我们剩下的任务是提出生成数据报告的替代方案(我…
Sqoop 命令 --hive-import 失败
我尝试使用 Hadoop 将数据库从 mysql 导入到 Hive,并使用 Sqoop 的“--hive-import”命令自动创建表并将数据加载到 hive。 我使用下面的命令使用 sqo…
Hive 开箱即用的 json 解析器
我有一个包含 json 记录的文本文件,我想加载到 Hive。我的 json 看起来像: {"vr":1,"tm":1312816191516,"tms":"08-08-2011 15:09:51.516 GMT","as":…