获取另一列的最大值对应的值
我需要找到另一列的最大值对应的值。 我的数据如下: group subgroup subgroup_2 value_a value_b date A 101 1 200 101 20220301 A 102 1 105 90 202…
Sqoop hive 导入错误数据
我正在尝试从 PGSQL 导入数据并使用 sqoop 加载到 Hive 中 使用的查询: sqoop import --connect jdbc:postgresql://${HOST}:${PORT}/${INST} --usern…
将数据从 Hive 导出到 AWS Redshift
我正在尝试使用 hive -e 导出 1TB 的 hive 数据,因为我们没有访问 hdfs 文件系统并将数据加载到 Redshift 的选项。数据已导出为多个小文件,例如 300…
Hive:以“yyyy-MM-dd”格式计算从日期算起的 1 年时间细绳
我需要计算在 HIVE 中从该日期“2021-01-29”开始是否已经过去了整整 1 年或更长时间。 因此结果日期必须采用“yyyy-MM-dd”格式,并且等于“2022-01-…
识别字符串中具有连续重复值的记录
我需要确定某个字符串内部是否有重复值。例如,如果我们有一个字符串“Apple apple Juice”和另一个字符串“Orange Juice”,则代码必须选取字符串“A…
在 Spark SQL 中显示在 Hive 表上创建表 - 将 CHAR、VARCHAR 视为字符串
我需要为 Hive 表和生成 DDL 语句。以编程方式查看。我尝试使用 Spark 和 Beeline 来完成此任务。 Beeline 每个语句大约需要 5-10 秒,而 Spark 在几…
如何将 Hive 表导出到 CSV 文件,其中我的文件包含警告非法字符的 CJK 单词
df = sol.spark.sql("SELECT * FROM mytable") df.write.csv("hdfs:///user/athena_ioc/mydata.csv") 在这种情况下我使用 pyspark,所以这里我使用 Sp…
使用 SubString 和 lpad/rpad 替换数字
有没有办法在 Hive 中使用子字符串替换数字。 scenario: 1. I need to check 0's from right to left and as soon as i find 0 before any digit then…
在 Hive 中使用 SubString 和 lpad/rpad 替换数字
大家好, Kinldy 帮助我在 Hive 中实现以下逻辑。我在 hive 中有 2 个表(table1,table2)。我需要在某些条件下将 table1 的一列中的 0 替换为 9,并…
AthenaQueryError:Athena 查询失败:“NOT_SUPPORTED:不支持的 Hive 类型”
我最近遇到以下错误“AthenaQueryError:Athena 查询失败:“NOT_SUPPORTED:不支持的 Hive 类型”,为此我遵循了此堆栈溢出链接:在 Athena 上转换为…
如何在 hive 中使用强制转换列作为 where 子句条件?
例如,“dt”是一个字符串,我将其转换为日期类型,然后我想将其用作 WHERE 子句中的条件,但失败: hive> select mid, cast(to_date(from_unixtime(u…
未选择用于增量统计更新的分区
当我在命令中没有分区子句的情况下运行 COMPUTE INCRMENTAL STATS 时,收到消息 Noparts selected for Incremental stats update。但该表是用某些列分…
Hive-metastore 找不到 Hadoop Datanode
我有一个 Hadoop 集群,其中有一个名称节点和一个使用 docker compose 实例化的数据节点。另外,我正在尝试启动 Hive,但 Hive-metastore 似乎找不到…