当前位置：文江博客话题详情

将 csv 从 GCS 上传到 BigQuery 时，有没有办法提供架构或自动检测架构？

发布于 2025-01-17 21:41:11 字数 721 浏览 2 评论 0 原文

我正在尝试将 csv 文件从 Google Cloud Storage (GCS) 上传到 BigQuery (BQ) 并自动检测架构。

我尝试做的是启用自动检测架构并在“要跳过的标题行”选项中输入要跳过的行数。我有 6 行，其中包含有关我需要跳过的数据的描述性信息。第七行是我的实际标题行。

根据 Google 的文档： https://cloud.google.com/ bigquery/docs/schema-detect#auto-detect：

“字段类型基于具有最多字段的行。因此，只要至少有一个，自动检测就应该按预期工作每个都有值的数据行列/字段。”

我的 CSV 的问题在于，行中存在空值，因此不满足上述条件。

另外，我的 CSV 包含许多行，其中不包含任何数值，我认为这为 Google 模式自动检测增加了额外的复杂性。

自动检测未检测到正确的列名称或正确的字段类型。所有字段类型都被检测为字符串和列名称，如下所示： string_field_0 、 string_field_1 、 string_field_3 等。它还将 CSV 的列名称作为一行数据传递。

我想知道如何正确上传此 CSV 到 BQ，跳过前导不需要的行并拥有正确的架构（字段名称和字段类型）。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

感性 2025-01-24 21:41:12

阅读了一些文档后，特别是我认为的 CSV 标头部分您所观察到的是预期的行为。

另一种方法是手动指定数据的架构。

回复收藏 0 原文

眼藏柔 2025-01-24 21:41:12

您可以尝试使用 bq load 作业中使用它。

回复收藏 0 原文

儭儭莪哋寶赑 2025-01-24 21:41:12

通过将我的实际标题行在CSV中加入要跳过的行数来解决此问题。

我实际上需要跳过6行。第七行是我的标题（列名称）。我在标题行中输入6个要跳过。

当我输入7而不是6时，正确检测到该架构。

另外，我意识到在Google的文档中的这句话中，“字段类型基于行具有最多的行。因此，只要至少有一排的数据，自动检测应尽可能地工作。在每个列/字段中都有值。”，null被视为值，因此实际上并没有在上传到BQ中引起问题。

希望这有助于面对同一问题的人！

回复收藏 0 原文

~没有更多了~

关于作者

小…楫夜泊

暂无简介

文章

25 人气

关注发私信

友情链接

文江博客

将 csv 从 GCS 上传到 BigQuery 时，有没有办法提供架构或自动检测架构？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

╰ゝ天使的微笑

少女净妖师

朱洁

觉浅

滥情空心

hl1314520

友情链接

将 csv 从 GCS 上传到 BigQuery 时，有没有办法提供架构或自动检测架构？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

╰ゝ天使的微笑

少女净妖师

朱洁

觉浅

滥情空心

hl1314520

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。