当前位置：文江博客话题详情

CSV apache-spark newline

Apache Spark CSV 使用 Windows 换行符 (CRLF) 从 DataFrame 写入

发布于 2025-01-12 06:31:27 字数 429 浏览 3 评论 0原文

我在基于 Unix 的集群中运行 Apache Spark 3.1.2，为基于 Windows 的摄取系统准备 CSV 文件。当 Windows 系统摄取集群 Spark CSV 导出创建的 CSV 文件时，无法解析 csv，因为新行是 LF \n Unix 风格新行，而 Windows系统需要 CRLF \r\n 样式的行结尾。

有没有办法将 Apache Spark CSV 导出器配置为使用基于 Windows 的新行进行写入，尽管在 Unix 环境中运行？是否有一个 scala 工具可以在 CSV 写入后运行，可以在导出到 Windows 系统之前将文件转换为 Windows 新行？

我已经看到了 .option("lineSep", "\r\n") 但我相信这仅供阅读。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

日记撕了你也走了 2025-01-19 06:31:27

丑陋的解决方案 - 如果您的字段没有转义，您可以将 \r 添加到最后一个字段
仍然丑陋 - 如果您的 csv 字段不需要转义 - 没有奇怪的字符，您可以通过用逗号 add \r 连接所有列来手动构建行最后写入为文本
后处理 - 保存为 csv，读取为文本，在每行添加 \r 并保存为文本。
如果文件不太大 - 我猜它们不是因为你要把它们转移到另一台机器上进行处理，你可以使用linux工具添加\r，sed，perl，或者只是 unix2dos util

回复收藏 0 原文

归属感 2025-01-19 06:31:27

我必须对文件进行后处理。我将它合并到 1 个分区并写出 CSV，然后使用 Java BufferedReader 逐行加载文件。我使用 BufferedOutputWriter 将输入流逐行传输到编写器中，在每行之间注入 \r\n ...太蹩脚了。

回复收藏 0 原文

~没有更多了~

关于作者

梦中的蝴蝶

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

凯凯我们等你回来

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文