Pyspark - 将数据帧写入 json 时限制文件大小

发布于 2025-01-16 14:30:44 字数 267 浏览 0 评论 0原文

我正在使用 pyspark v3。我使用以下代码将数据帧写入 json 文件,我们如何将输出文件的大小限制为 100MB ?

    data_frame\
        .coalesce(1)\
        .write\
        .mode("overwrite")\
        .option("ignoreNullFields", "false")\
        .format("json")\
        .save(path)

I'm using pyspark v3. I'm using the following code to write a dataframe to a json file, How can we limit the size of the output files to 100MB ?

    data_frame\
        .coalesce(1)\
        .write\
        .mode("overwrite")\
        .option("ignoreNullFields", "false")\
        .format("json")\
        .save(path)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

演多会厌 2025-01-23 14:30:44

Spark 可以选择使用 spark.sql.files.maxRecordsPerFile 配置来限制每个文件的行数和文件大小(请参阅 此处)。

您可以尝试估计应该有多少行才能将限制限制在 100MB 左右(这是一个估计值,因为这取决于格式和数据)。

Spark has an option to limit the number of rows per file and thus the file size using the spark.sql.files.maxRecordsPerFile configuration (see here).

You can try and estimate how many rows there should be in order to have a limit of around 100MB (it's an estimation as this depends on the format and the data).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文