用apache spark/prem hadoop撰写avro文件到Google Cloud Storage
我正在尝试使用“ Hadoop”上的Hadoop上的一些Spark Workfrows迁移到Google Cloud Storage。
假设VPC,网络,云互连和防火墙都已井井有条,那么首先将如何将AVRO文件(目前在Parquet)编写到外部目的地,例如Google Cloud Storage?使用Oozie&例如,Spark-Submit?我需要将Google Cloud Storage映射为位置吗?我们想摆脱将HDF存储的存储,但是现在所有的工作流都目的地都在Hadoop中写入Hadoop。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以使用
对于新/现有的Spark作业,您将需要 core-site.xml 中进行配置,然后您应该能够将数据框架写入GCS
spark avro数据源
You could use DistCp rather than Spark for existing data, and configure oozie to run that.
For new/existing Spark jobs, you will need the Cloud Storage Connector and configure it in Spark's
core-site.xml
, then you should be able to write a dataframe to GCSSpark Avro data sources