当前位置：文江博客话题详情

hadoop hive apache-pig

Pig 和 Hive 之间的区别？为什么两者都有？

发布于 2024-09-11 19:48:13 字数 1431 浏览 4 评论 0原文

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（19）

冷血 2024-09-18 19:48:13

查看此帖子雅虎的 Pig 架构师 Alan Gates 比较了何时使用 Hive 等 SQL 而不是 Pig。他提供了一个非常令人信服的案例来说明 Pig 等过程语言（相对于声明式 SQL）的有用性及其对数据流设计者的实用性。

回复收藏 0 原文

秋意浓 2024-09-18 19:48:13

Hive 旨在吸引熟悉 SQL 的社区。它的理念是我们不需要另一种脚本语言。 Hive 支持用户选择的语言的映射和归约转换脚本（可以嵌入 SQL 子句中）。它在 Facebook 中被熟悉 SQL 的分析师以及使用 Python 编程的数据挖掘人员广泛使用。 Pig 中的 SQL 兼容性工作已经被放弃了——所以这两个项目之间的区别非常明显。

支持 SQL 语法还意味着可以与 Microstrategy 等现有 BI 工具集成。 Hive 有一个 ODBC/JDBC 驱动程序（这是一项正在进行的工作），应该可以在不久的将来实现这一点。它还开始添加对索引的支持，这应该允许支持此类环境中常见的深入查询。

最后——这与问题没有直接关系——Hive 是一个用于执行分析查询的框架。虽然它的主要用途是查询平面文件，但它没有理由不能查询其他存储。目前，Hive 可用于查询存储在 Hbase 中的数据（这是一种键值存储，类似于大多数 RDBMS 内部的键值存储），并且 HadoopDB 项目已使用 Hive 来查询联合 RDBMS 层。

回复收藏 0 原文

〃安静 2024-09-18 19:48:13

我发现这是最有帮助的（尽管它已经有一年了） - http://yahoohadoop.tumblr.com/post/98256601751/pig-and-hive-at-yahoo

它专门讨论了 Pig 与 Hive 以及他们在雅虎工作的时间和地点。我发现这非常有见地。一些有趣的注释：

关于数据集的增量更改/更新：

相反，加入新的增量数据并使用
结果与先前完全连接的结果一起是
正确的做法。这将只需要几分钟。标准数据库
操作可以在 Pig Latin 中以这种增量方式实现，
使 Pig 成为适合此用例的好工具。

关于通过流媒体使用其他工具：

猪与流媒体的集成也使研究人员可以轻松地
获取他们已经在小型计算机上调试过的 Perl 或 Python 脚本
数据集并针对巨大的数据集运行它。

关于使用 Hive 进行数据仓库：

在这两种情况下，关系模型和 SQL 都是最合适的。的确，
数据仓库一直是 SQL 的核心用例之一
它的大部分历史。它具有支持类型的正确结构
分析师想要使用的查询和工具。并且它已经在
被该领域的工具和用户使用。
Hadoop子项目Hive提供了SQL接口和关系型数据库
Hadoop 模型。 Hive 团队已开始与 BI 集成
通过 ODBC 等接口的工具。

回复收藏 0 原文

彡翼 2024-09-18 19:48:13

Hive 在以下方面比 PIG 更好：分区、服务器、Web 界面和应用程序。 JDBC/ODBC 支持。

一些区别：

Hive 最适合结构化数据 PIG 最适合半结构化数据
Hive 用作声明式 SQL 和PIG 作为一种过程语言
Hive 支持分区和分区PIG没有
Hive 定义带有（架构）的表并将架构信息存储在数据库中。 PIG没有专用的数据库元数据
Pig 还支持用于执行外连接的附加 COGROUP 功能，但 hive 不支持。但是 Hive 和 Hive 都是如此。 PIG 可以加入、订购和创建。动态排序。

回复收藏 0 原文

水中月 2024-09-18 19:48:13

我相信你的问题的真正答案是它们是独立的项目并且没有集中协调的目标。它们很早就处于不同的空间，随着两个项目的扩展，它们逐渐重叠。

摘自 Hadoop O'Reilly 书中的内容：

Pig：一种数据流语言和
探索非常大的环境
数据集。
Hive：分布式数据仓库

回复收藏 0 原文

梦情居士 2024-09-18 19:48:13

您可以使用 pig/hive 查询获得类似的结果。主要区别在于理解/编写/创建查询的方法。

Pig 倾向于创建数据流：在每个小步骤中进行一些处理
Hive 为您提供类似 SQL 的语言来操作数据，因此从 RDBMS 进行转换要容易得多（对于没有 SQL 经验的人来说，Pig 会更容易）。

还值得注意的是，对于 Hive，您可以使用良好的界面来工作使用此数据（用于 HUE 的 Beeswax 或 Hive Web 界面），它还为您提供有关数据的信息（架构等）的元存储，这对于作为有关数据的中心信息非常有用。

我使用 Hive 和 Pig 来处理不同的查询（我使用 Hive 和 Pig 可以更快/更轻松地编写查询，我这样做主要是临时查询）——它们可以使用相同的数据作为输入。但目前我的大部分工作都是通过蜂蜡完成的。

回复收藏 0 原文

醉梦枕江山 2024-09-18 19:48:13

Pig 允许在管道中的任何一点加载数据和用户代码。如果数据是流数据，例如来自卫星或仪器的数据，则这一点尤其重要。

Hive 基于 RDBMS，需要首先导入（或加载）数据，然后才能对其进行处理。因此，如果您在流数据上使用 Hive，则必须不断填充存储桶（或文件）并在每个已填充存储桶上使用 Hive，同时使用其他存储桶来继续存储新到达的数据。

Pig 也使用惰性求值。它使编程变得更加容易，并且可以使用它以不同的方式分析数据，比 Hive 等类似 SQL 的语言更自由。因此，如果您确实想分析现有的一些非结构化数据中的矩阵或模式，并想对它们进行有趣的计算，那么使用 Pig，您可以走得更远，而使用 Hive，您需要其他东西来处理结果。

Pig 的数据导入速度更快，但实际执行速度比 Hive 等 RDBMS 友好语言慢。

Pig 非常适合并行化，因此它可能在数据集庞大的系统中具有优势，即在您更关心结果吞吐量而不是延迟（获取任何特定结果数据的时间）的系统中。

回复收藏 0 原文

耳根太软 2024-09-18 19:48:13

Hive 与 Pig-

Hive 是一个 SQL 接口，允许精通 sql 的用户或其他工具，如 Tableu/Microstrategy/任何其他具有 sql 接口的工具或语言。.PIG

更像是一个 ETL 管道..带有声明变量等逐步命令、循环、迭代、条件语句等。

当我想编写复杂的逐步逻辑时，我更喜欢编写 Pig 脚本而不是 hive QL。当我可以轻松地编写一条 sql 来提取我想要的数据时，我会使用 Hive。对于 hive，您需要在查询之前定义表（就像在 RDBMS 中所做的那样）

两者的目的不同，但在幕后，两者的作用相同，转换为 MapReduce 程序。此外，Apache 开源社区正在添加越来越多的内容这两个项目的功能

回复收藏 0 原文

若有似无的小暗淡 2024-09-18 19:48:13

在此链接中阅读 PIG 和 HIVE 之间的区别。

http://www.aptibook.com/Articles/Pig-and -hive-advantages-disadvantages-features

给出了所有方面。如果您对选择哪个感到困惑，那么您必须查看该网页。

回复收藏 0 原文

傲性难收 2024-09-18 19:48:13

Pig-latin是数据流风格，更适合软件工程师。而sql更适合习惯sql的分析人员。对于复杂的任务，对于hive你必须手动创建临时表来存储中间数据，但对于pig来说没有必要。
Pig-latin适合复杂的数据结构（如小图）。 Pig中有一个称为DataBag的数据结构，它是Tuple的集合。有时您需要计算涉及多个元组的指标（元组之间存在隐藏的链接，在这种情况下我将其称为图形）。在这种情况下，很容易编写一个 UDF 来计算涉及多个元组的指标。当然在hive中也可以做到，但是没有pig那么方便。
在我看来，在 Pig 中编写 UDF 比在 Hive 中容易得多。
Pig没有元数据支持（或者是可选的，将来可能会集成hcatalog）。 Hive 将表的元数据存储在数据库中。
你可以在本地环境中调试pig脚本，但hive很难做到这一点。原因是第3点。你需要在本地环境中设置hive元数据，非常耗时。

回复收藏 0 原文

落花浅忆 2024-09-18 19:48:13

我发现下面有用的链接来探索如何以及何时使用 HIVE 和 PIG。

http://www.hadoopwizard.com/when-使用-pig-latin-与-hive-sql/

回复收藏 0 原文

流星番茄 2024-09-18 19:48:13

以下是一些有关使用 Pig 或 Hive 的附加链接。

http://aws.amazon.com/elasticmapreduce/faqs/#hive-8

http://www.larsgeorge.com/2009/10/hive -vs-pig.html

回复收藏 0 原文

笑脸一如从前 2024-09-18 19:48:13

从链接：
http://www.aptibook.com/discuss-technical?uid=tech-hive4&question=What-kind-of-datawarehouse-application-is-suitable-for-Hive？

Hive 不是一个完整的数据库。 Hadoop 和 HDFS 的设计约束和局限性限制了 Hive 的功能。

Hive 最适合数据仓库应用程序，其中

1) 分析相对静态的数据，

2) 不需要快速响应时间，

3) 当数据不快速变化时。

Hive 不提供 OLTP（在线事务处理）所需的关键功能。它更接近于 OLAP 工具，即在线分析处理。
因此，Hive 最适合数据仓库应用程序，在该应用程序中维护和挖掘大型数据集以获取见解、报告等。

回复收藏 0 原文

失退 2024-09-18 19:48:13

简单来说，Pig 是一个用于创建与 Hadoop 一起使用的 MapReduce 程序的高级平台，使用 Pig 脚本我们将把大量数据处理成所需的格式。

一旦获得处理后的数据，则将处理后的数据保存在HDFS中以供后续处理以获得期望的结果。

在存储的处理数据之上，我们将应用 HIVE SQL 命令来获得所需的结果，该 hive sql 命令在内部运行 MAP Reduce 程序。

回复收藏 0 原文

孤独患者 2024-09-18 19:48:13

简而言之，要对两者进行非常高层次的概述：

1) Pig 是 hadoop 上的关系代数

2) Hive 是 hadoop 上的 SQL（比 Pig 高一级）

回复收藏 0 原文

滥情空心 2024-09-18 19:48:13

当我们在某种意义上使用 Hadoop 时，这意味着我们正在尝试进行大量数据处理。数据处理的最终目标是从中生成内容/报告。

它内部由 2 个主要活动组成：

1) 加载数据处理

2) 生成内容并将其用于报告等

。猪会对此有所帮助。

这有助于 ETL（我们可以使用 Pig 脚本执行 etl 操作）。

处理结果后，我们可以使用 hive 根据处理结果生成报告。

Hive：它构建在 hdfs 之上，用于仓库处理。

我们可以使用 hive 根据 Pig 生成的处理内容轻松生成临时报告。

回复收藏 0 原文

梦晓ヶ微光ヅ倾城 2024-09-18 19:48:13

HIVE 可以做哪些在 PIG 中做不到的事情？

分区可以使用 HIVE 完成，但不能在 PIG 中完成，这是一种绕过输出的方法。

PIG 可以做哪些在 HIVE 中做不到的事情？

位置引用 - 即使您没有字段名称，我们也可以使用 $0 等位置进行引用 - 第一个字段，$1 第二个字段，依此类推。

另一个根本区别是，PIG 不需要模式来写入值，但 HIVE 确实需要模式。

您可以使用 JDBC 等从任何外部应用程序连接到 HIVE，但不能使用 PIG。

注意：两者都运行在 HDFS（hadoop 分布式文件系统）之上，并且语句都转换为 MapReduce 程序。

回复收藏 0 原文

絕版丫頭 2024-09-18 19:48:13

猪什么都吃！这意味着它可以使用非结构化数据。

Hive 需要一个模式。

回复收藏 0 原文

又怨 2024-09-18 19:48:13

一般来说，Pig 对于 ETL 类型的工作负载很有用。例如，您每天需要对数据进行一组转换。

当您需要运行即席查询或只想探索数据时，Hive 会发挥作用。它有时可以充当可视化层（Tableau/Qlikview）的接口。

两者都是必不可少的并且有不同的目的。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

21 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文