返回介绍

数学基础

统计学习

深度学习

工具

Scala

一、概述

发布于 2023-07-17 23:38:23 字数 1001 浏览 0 评论 0 收藏 0

  1. spark sql 是用于操作结构化数据的程序包

    • 通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回
    • 它支持多种数据源,如Hive 表、Parquet 以及 JSON
    • 它支持开发者将SQL 和传统的RDD 变成相结合
  2. Dataset:是一个分布式的数据集合

    • 它是Spark 1.6 中被添加的新接口
    • 它提供了RDD的优点与Spark SQL 执行引擎的优点
    • 它在ScalaJava 中是可用的。Python 不支持Dataset API。但是由于Python 的动态特性,许多DataSet API 的优点已经可用
  3. DataFrame:是一个Dataset 组成的指定列。

    • 它的概念等价于一个关系型数据库中的表
    • Scala/Python 中,DataFrameDataSet 中的 RowS (多个Row) 来表示。
  4. spark 2.0 之后,SQLContextSparkSession 取代。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文