当前位置：文江博客话题详情

Pyspark如何在设置为true时自动确定列的数据类型，后台会发生什么

发布于 2025-02-06 20:43:49 字数 309 浏览 3 评论 0 原文

根据文档，

Inferschema：自动进化列类型。需要一个额外的传递数据，默认情况下是错误的

，我知道Spark将读取CSV以确定数据类型并相应地分配。

我很想知道背景中发生了什么。

火花扫描整个CSV吗？
如果仅扫描示例数据，那么它将扫描多少行？
Spark如何得出结论，因此列是特定数据类型并在InferSchema = true上分配的？

有人可以帮助我更好地理解它或分享一些链接！

谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

完美的未来在梦里 2025-02-13 20:43:50

默认情况下回答您的一些问题

是的，但是在新版本中引入了采样比率，您可以在其中定义需要扫描以推断模式（默认为1）的值的比例，
默认情况下，所有行都需要额外的通行证。在数据上，
它将其分析为整数，长，双重，bool且最终字符串或例外，如果解析失败并提供了最终模式，则可以阅读代码的早期版本在这里

回复收藏 0 原文

~没有更多了~

关于作者

喜爱纠缠

暂无简介

文章

27 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

Pyspark如何在设置为true时自动确定列的数据类型，后台会发生什么

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者