Pyspark - 将数据帧写入 json 时限制文件大小
我正在使用 pyspark v3。我使用以下代码将数据帧写入 json 文件,我们如何将输出文件的大小限制为 100MB ?
data_frame\
.coalesce(1)\
.write\
.mode("overwrite")\
.option("ignoreNullFields", "false")\
.format("json")\
.save(path)
I'm using pyspark v3
. I'm using the following code to write a dataframe to a json file, How can we limit the size of the output files to 100MB ?
data_frame\
.coalesce(1)\
.write\
.mode("overwrite")\
.option("ignoreNullFields", "false")\
.format("json")\
.save(path)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Spark 可以选择使用
spark.sql.files.maxRecordsPerFile
配置来限制每个文件的行数和文件大小(请参阅 此处)。您可以尝试估计应该有多少行才能将限制限制在 100MB 左右(这是一个估计值,因为这取决于格式和数据)。
Spark has an option to limit the number of rows per file and thus the file size using the
spark.sql.files.maxRecordsPerFile
configuration (see here).You can try and estimate how many rows there should be in order to have a limit of around 100MB (it's an estimation as this depends on the format and the data).