在 R 和 Hive (Hadoop) 数据库之间建立连接
有谁知道如何实现这一目标? 我假设 RJDBC 会有所帮助;但根据我(可能很天真的)的理解,为此编写或调整 Hive 驱动程序需要进行一些调整。 相关文档…
Hive - 如何为可变长度的现有 hdfs 文件编写创建语句?
所以,我有一个现有的 hdfs 目录,其中包含一堆文件。这些文件都是制表符分隔的。 我有一个配置单元声明...... create external table mytable( key s…
Hive / Hadoop / Flatfile:组合和连接行的有效方法是什么
id col1 col2 ... coln --------------------- foo barA barB ... foo barD barX boo barA barC foo barC barC 我想将其组合成“折叠”行,如下所示:…
使用 Ruby 生成 SQL 查询
我想要一种在 Ruby 中生成 SQL 查询的简单方法。我了解 ActiveRecord、Sequel 和 DataMapper。我不是在寻找 ORM,而是在寻找一种更简单的生成 SQL 语…
hive 表达式不在按键分组中
我在 HIVE 中创建了一个表。 它有以下列: id bigint, rank bigint, date string 我想获得每月的平均(排名)。我可以使用这个命令。有用。 select a.…
对 Hive 中存储的数据运行 Pig 查询
我想知道如何运行以 Hive 格式存储的 Pig 查询。我已将 Hive 配置为存储压缩数据(使用本教程 http://wiki.apache.org/ hadoop/Hive/压缩存储)。 在…
从HDFS导入数据到Hive表
我的数据位于 HDFS 中的 data/2011/01/13/0100/file 中,每个文件都包含制表符分隔的数据,例如名称、ip 和 url。 我想在 Hive 中创建一个表并从 hdfs…
Hadoop Hive - 分割字符串
我是新蜂巢。 我的查询:在日志文件中,我们有一个像这样的请求字段“GET /img/home/search-user-ico.jpg HTTP/1.1”。有超过 10,000 条记录可用。 示…
Hive:将列标题写入本地文件?
Hive 文档再次缺失: 我想将查询结果以及列名写入本地文件。 Hive 支持这个吗? Insert overwrite local directory 'tmp/blah.blah' select * from ta…
在 Hive 中,“加载数据本地路径”是否有效?覆盖现有数据还是追加?
我希望在 cron 上运行到 Hive 的导入,并且希望仅使用 “将数据本地路径‘/tmp/data/x’加载到表 X”到表中就足够了。 后续命令会覆盖表中已有的内容…
如何将 .txt 文件转换为 Hadoop 的序列文件格式
为了有效利用Hadoop中的map-reduce作业,我需要将数据存储在hadoop 的序列文件格式。但是,目前数据仅采用平面 .txt 格式。任何人都可以建议一种将 .t…
如何使 hive 从特定路径加载元存储而不是在当前目录中创建?
我正在使用 Hive 进行一些数据处理。但是每当我启动 Hive-Shell 时,它都会在当前目录中创建一个元存储,并且我无法访问在另一个目录中创建的表。这对…
如何在 Apache Hive 中并行化(小)数据集的查询
我正在我的部分数据集上测试最新的 Hive。我通过自定义 SerDe 读取的日志文件只有几 GB。 当我运行简单的 Group By 查询(4 个 MR 作业)时,我收到诸…
Apache Hive 中的自动化测试
我即将开始一个使用 Apache Hadoop/Hive 的项目,该项目将涉及一组 hive 查询脚本,以便为各种下游应用程序生成数据源。这些脚本似乎是某些单元测试的…