Spark SQL 更改表在幕后是如何工作的?
假设我有一个保存为镶木地板文件的表格。我相信这些是只读/仅附加的。因此,当我通过 alter table 添加/删除/更改列时,Spark 是否会处理整组 parquet…
在写入期间 Spark repartiton、sortWithinParitions 和partitionBy 扰乱了我的排序
我有 scala Spark 代码,可将数据帧写入 csv 文件。代码如下所示 dataframe .select("path", "id", "top_path") .repartition(1, col("top_path")) .s…
根据概率从数组中选择 N 个值 - Pyspark
我想根据项目发生的概率从 4 个项目的数组中抽取 3 个项目。输入是一个项目数组,还有另一个数组,其中包含选择该项目的概率: 我尝试创建一个 udf 并…
Pyspark SQL:如何在数据帧 B 列为 NULL 的两列上左连接数据帧 A 和数据帧 B
我正在使用 Pyspark 和最初已加载数据的 Hive 表编写每日增量加载过程的脚本。 我一直在尝试通过在两个 PK 列 src_sys_id & acct_nbr 其中 INC datafr…
PySpark - RDD 包含指向内存中浮点值的整数列,无法创建 DataFrame
我在尝试使用 RDD 创建 PySpark DataFrame 时遇到了一个奇怪的错误。通常,只要 schema 与 RDD 兼容,spark.createDataFrame(df.rdd, new_schema) 就…
Oracle列类型数字在spark中显示十进制值
使用spark read jdbc选项,我正在读取oracle表,其中一列类型是“数字”类型。读取并写入 s3 存储桶后,数据帧 printschema 显示十进制(38,10)。我…
pyspark 数据框通过可迭代列连接
我想加入两个基于多列的 pyspark 数据框。 tab1: id name(string , size=3) val. (Long int) 6725 fnc 5219 8576 fnc 829 9192 sct 72912 782 sct 102…
如何删除 Pyspark Dataframe 中列中的逗号
大家好,感谢您花时间帮助我解决这个问题, 现在我已将 csv 上传到 Spark 中,数据帧的类型是 pyspark.sql.dataframe.DataFrame 我有一列数字(但在这…
Spark 3.0.2:Spark 分析器在缓存后重用相同的投影时不会调用 ResolveMissingReferences
中运行以下代码片段 尝试在spark 3.0.2 val df = spark.read.parquet(file_path) val df1 = df.select(col1, col2).filter(col2 > 10).cache() df1.co…
与 Pyspark 和 When 结合使用的逻辑
我有下面的数据框: customer_id person_id type_person type_person2 insert_date2 anterior_type update_date abcdefghijklmnopqrst 4a5ae8a5-6682-…
使用 string创建表;和 pyspark 中的字符串
我有一个数据集如下。 +-------------------------------------------------------+--------------------------------------------------------------…
如何按位置选择列并将其用于 Databricks Spark Scala 中其他列的公式中?
我在 Databricks 上使用 Scala。假设我有一个如下所示的数据框: val df = Seq( ("Alex", 4.0, 3.2, 3.0), ("John", 2.0, 4.2, 1.2), ("Alice", 1.0, …
当我使用选项时,Scala from_json 函数抛出错误
下面是我的代码: val opts = Map("allowUnquotedFieldNames" -> "true") val df_withSchema = df.withColumn("Data", from_json(col("Item.Data.S"),…
如何将 Psypark FOR 循环输出附加到单个数据帧中 (spark.sql)
我有一个使用“客户”变量的 pyspark for 循环。我想附加每个循环迭代的输出,以便最终的数据帧具有 for 循环输出的所有行。除了附加部分之外,该代码…
Scala:Window.partitionBy() 并确定连接数据帧的最大计数
我有从两个单独的 .csv 中读取的数据,其中包含以下标题: df1: ID1 (integer), ID2 (integer), person_count (integer), distance (float), amount (…
- 共 1 页
- 1