为什么hive查询的结果会分成多个文件

发布于 2024-12-12 12:42:01 字数 755 浏览 0 评论 0原文

我设置了一个 Amazon ElasticMapreduce 作业来运行 hive 查询

CREATE EXTERNAL TABLE output_dailies (
day string, type string, subType string, product string, productDetails string, 
uniqueUsers int, totalUsers int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '${OUTPUT}';

INSERT OVERWRITE TABLE output_dailies
select day, type, subType, product, productDetails, count(distinct accountId) as uniqueUsers, count(accountId) as totalUsers from raw_logs where day = '${QUERY_DATE}' group by day, type, subType, product, productDetails;

作业完成后，配置为在 S3 上的输出位置将包含 5 个具有此模式 task_201110280815_0001_r_00000x 的文件，其中 x 从 0 到4. 文件很小，每个 35 KB。

是否可以指示 hive 将结果存储在单个文件中？

原文

I have a Amazon ElasticMapreduce job set up to run hive query

CREATE EXTERNAL TABLE output_dailies (
day string, type string, subType string, product string, productDetails string, 
uniqueUsers int, totalUsers int
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE
LOCATION '${OUTPUT}';

INSERT OVERWRITE TABLE output_dailies
select day, type, subType, product, productDetails, count(distinct accountId) as uniqueUsers, count(accountId) as totalUsers from raw_logs where day = '${QUERY_DATE}' group by day, type, subType, product, productDetails;

After the job finishes, the output location, which is configured to be on S3, will contain 5 files with this pattern task_201110280815_0001_r_00000x where x goes from 0 to 4. The files are small, 35 KB each.

Is it possible to instruct hive to store the results in a single file?

分享到QQ

分享到微博