当前位置：文江博客话题详情

hadoop apache-spark google-cloud-platform

用apache spark/prem hadoop撰写avro文件到Google Cloud Storage

发布于 2025-02-09 08:35:24 字数 271 浏览 1 评论 0 原文

我正在尝试使用“ Hadoop”上的Hadoop上的一些Spark Workfrows迁移到Google Cloud Storage。

假设VPC，网络，云互连和防火墙都已井井有条，那么首先将如何将AVRO文件（目前在Parquet）编写到外部目的地，例如Google Cloud Storage？使用Oozie＆amp;例如，Spark-Submit？我需要将Google Cloud Storage映射为位置吗？我们想摆脱将HDF存储的存储，但是现在所有的工作流都目的地都在Hadoop中写入Hadoop。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我不在是我 2025-02-16 08:35:24

您可以使用

对于新/现有的Spark作业，您将需要 core-site.xml 中进行配置，然后您应该能够将数据框架写入GCS

val dataframe = spark.read.load("hdfs://some/data") // existing parquet files

dataframe.write
    .format("avro")
    .save("gs://bucket/path")

spark avro数据源

You could use DistCp rather than Spark for existing data, and configure oozie to run that.

For new/existing Spark jobs, you will need the Cloud Storage Connector and configure it in Spark's core-site.xml, then you should be able to write a dataframe to GCS

val dataframe = spark.read.load("hdfs://some/data") // existing parquet files

dataframe.write
    .format("avro")
    .save("gs://bucket/path")

Spark Avro data sources

回复收藏 0 原文

~没有更多了~

关于作者

单身狗的梦

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

用apache spark/prem hadoop撰写avro文件到Google Cloud Storage

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

用apache spark/prem hadoop撰写avro文件到Google Cloud Storage

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

夢野间

百度③文鱼

小草泠泠

zhuwenyan

weirdo

坚持沉默

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。