Hive 有字符串分割功能吗?
我正在寻找 Hive 中内置的字符串分割函数?例如,如果 String 是: A|B|C|D|E 那么我想要一个像这样的函数: array split(string input, char delimit…
在 Hive 上编写使用外部 java 类的自定义函数
我一直在想如何在 Hive 中做到这一点。 例如,我想在日志文件中提取一个特定字段(这在 Hive 中已经可以实现),然后我想将该字段的值映射到其他内容…
将多行合并为一个空格分隔的字符串
所以我有 5 行像这样 userid, col -------------- 1, a 1, b 2, c 2, d 3, e 我将如何进行查询,所以它看起来像这样 userid, combined 1, a b 2, c d …
如何从.NET 连接到 Hadoop/Hive
我正在开发一个解决方案,其中我将有一个运行 Hive 的 Hadoop 集群,并且我想从 .NET 应用程序发送作业和 Hive 查询进行处理,并在完成时收到通知。除…
Spring-Batch 用于大规模夜间/每小时 Hive/MySQL 数据处理
我正在考虑替换一堆 Python ETL 脚本,这些脚本对大量数据执行每晚/每小时的数据摘要和统计收集。 我想要实现的是 鲁棒性 - 失败的作业/步骤应该自动…
Pig 和 Hive 之间的区别?为什么两者都有?
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
甚至hadoop/hive上的数据分布
我正在尝试使用 2 台机器进行小型 hadoop 设置(用于实验)。我正在使用 Hive 加载大约 13GB 的数据,一个包含大约 3900 万行的表,复制因子为 1。 我…
如何在 Amazon Elastic Mapreduce 之上使用 Hive 来处理 Amazon Simple DB 中的数据?
我在 Amazon Simple DB 域中有大量数据。我想在 Elastic Map Reduce(在 hadoop 之上)上启动 Hive,并以某种方式从 simpledb 导入数据,或者连接到 s…
使用 Hadoop,我的减速器是否能保证获得具有相同键的所有记录?
我正在使用 Hive 运行 Hadoop 作业,实际上它应该是许多文本文件中的 uniq 行。在reduce步骤中,它为每个键选择最近带时间戳的记录。 Hadoop是否保证…
如何在 Java 中对 Hive 进行异步调用?
我想以异步方式在服务器上执行 Hive 查询。 Hive 查询可能需要很长时间才能完成,因此我不想阻止调用。我目前正在使用 Thirft 进行阻塞调用(在 clien…
构建 Apache Hive - 无法解决依赖关系
我正在按照 http://wiki.apache.org/hadoop/Hive 尝试 Apache Hive /GettingStarted 并从 Ivy 收到此错误: Downloaded file size doesn't match expe…
BigTable可以做OLAP吗?
过去,我曾经使用在 MySQL 上运行的 OLAP 多维数据集来构建 WebAnalytics。 现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储方式比这更…
不使用 CachedRowSetImpl.execute() 复制 ResultSet
我试图在执行查询后关闭连接。 之前,我只是创建一个 CachedRowSetImpl 实例,它会负责为我释放资源。 但是,我正在使用 Hadoop 项目中的 Hive 数据库…