当前位置：文江博客话题详情

使用Pyspark和HDFS创建新的CSV文件并上传数据

发布于 2025-01-21 17:10:20 字数 44 浏览 1 评论 0原文

我想使用pyspark在HDF中创建一个CSV文件，并在其中放置一些数据。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

花心好男孩 2025-01-28 17:10:20

您可以使用写入方法将pyspark数据帧写入HDFS作为CSV。在Spark 2.0+中，您可以直接使用CSV数据源。

from pyspark.sql.types import IntegerType, StringType, StructField, StructType
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = [
    {
        "row_nr": 1,
        "payment": "p1",
        "ref1": "c1",
        "ref2": "c1a",
        "original_ref": "c1",
    },
    {
        "row_nr": 2,
        "payment": "p1",
        "ref1": "c1a",
        "ref2": "c1b",
        "original_ref": None,
    }
]

schema = StructType(
    [
        StructField("row_nr", IntegerType()),
        StructField("payment", StringType()),
        StructField("ref1", StringType()),
        StructField("ref2", StringType()),
        StructField("original_ref", StringType()),
    ]
)

df = spark.createDataFrame(data=data, schema=schema)
df.write.csv(path="/my_path/my_file.csv", mode="overwrite")

You can write a pyspark DataFrame to hdfs as csv using the write method. From Spark 2.0+ you can use csv data source directly.

from pyspark.sql.types import IntegerType, StringType, StructField, StructType
from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

data = [
    {
        "row_nr": 1,
        "payment": "p1",
        "ref1": "c1",
        "ref2": "c1a",
        "original_ref": "c1",
    },
    {
        "row_nr": 2,
        "payment": "p1",
        "ref1": "c1a",
        "ref2": "c1b",
        "original_ref": None,
    }
]

schema = StructType(
    [
        StructField("row_nr", IntegerType()),
        StructField("payment", StringType()),
        StructField("ref1", StringType()),
        StructField("ref2", StringType()),
        StructField("original_ref", StringType()),
    ]
)

df = spark.createDataFrame(data=data, schema=schema)
df.write.csv(path="/my_path/my_file.csv", mode="overwrite")

回复收藏 0 原文

~没有更多了~