HIVE/HDFS 用于大规模实时存储传感器数据?
我正在评估具有以下要求的传感器数据收集系统, 100 万个端点每分钟发送 100 字节的数据(作为时间序列)。 基本上对存储进行了数百万次小写入。 此数…
hive regexp_extract 怪异
我在 regexp_extract 方面遇到一些问题: 我正在查询制表符分隔的文件,我正在检查的列具有如下所示的字符串: abc.def.ghi 现在,如果我这样做: sel…
提取主机+路径中的一个文件夹
你能帮我找出一个正则表达式, 当其后面的路径中没有指定文件夹时,该正则表达式将从 url: host name 中提取 例如 http://jj.com/'-> 'jj.com http://…
hive serde 中多分隔符字符串的正则表达式
我使用 serde 读取带有分隔符 || 的特定格式的数据,像 ||| 这样的三重管道永远不会出现在我的数据字符串中。 我的一行数据可能看起来像:aaa||bbb||c…
如何使用 Hadoop、Hive 和 Sqoop 从 MS SQL Server 检索和分析数据?
我想对数据库(MS SQL Server)中的数据进行分析。那么如何借助 Sqoop/Hive 将这些数据转移到 HDFS 上呢? Hive/Sqoop 可以吗? 请建议我我们该怎么做…
具有计算的动态最小值最大值的 SQL 查询
我遇到了 sql 问题。我有两个表,如下所示: first TABLE X second TABLE Y TabX_ID| DATE | Value Z TabY_ID|TabX_ID | DATE | Value X | Value Y 47…
如何在将数据加载到配置单元时合并数据?
我正在尝试使用配置单元来分析我们的日志,我有一个问题。 假设我们有一些这样的数据: 一个1 一个1 一个1 B 1 C 1 B 1 我怎样才能在配置单元表中做到…
运行 Hive 查询时出现问题
我已经通过 Cygwin 在 Windows 上配置了 Hadoop 和 Hive。 但我面临一些问题,例如: 在 hive 终端(CLI)中: hive> 当我输入查询时,查询不执行并且…
将数据从 hive 取出并放入 mysql @ AWS?
我很想使用 Sqoop,但不认为仅仅为了这个就值得在 ElasticMapReduce(我真的很喜欢)上运行 Cloudera stack @ AWS。 我目前的想法只是将我需要的数据…
Hive:从现有分区表创建新表
我正在使用 Amazon 的 Elastic MapReduce,并且根据存储在 Amazon S3 中的一系列日志文件创建了一个配置单元表,并按天拆分在文件夹中,如下所示: da…
在 Hive 查询中使用 Map/Reduce Java 类
我读到,在 hive 查询中我们可以使用 map/reduce 脚本。 我们可以在 Hive 查询中使用 java map/reduce 类吗?如果是这样,您能给我提供样品吗? 谢谢 …
在 Hadoop 上运行 Python
我正在尝试通过 hive 和 hadoop 运行一个非常简单的 python 脚本。 这是我的脚本: #!/usr/bin/env python import sys for line in sys.stdin: line =…
使用 Hbase 配置 Hive
我需要使用 hive 在 HBase 上执行查询。我已经下载了 HBase 和 hive,我的 HMaster 运行良好;我需要知道需要对 hive 进行哪些配置更改才能与 HBase …
使用 Pig/Hive 进行数据处理而不是直接使用 java map reduce 代码?
(甚至比 Pig 和 Hive 之间的区别更基本?为什么两者都有?) 我有一个数据处理管道,是通过 Hadoop 上的几个 Java map-reduce 任务编写的(我自己的自…
Hadoop/Hive 查询将一列拆分为多列
我使用 HIVE 来处理两个看起来像(或多或少)的表: -TABLE1 定义为 [(Variables : string),(Value1 : int),(Value2 : int)] , 字段“Variables”看…