Spark中的saveAasTable和save有什么区别
我正在使用 Pyspark,并且想要将分区插入并覆盖到现有的配置单元表中。
- 在这个用例中
saveAsTable()
不合适,它会覆盖整个现有表 insertInto()
的行为很奇怪:我有 3 个分区级别,但它插入一个
Snd使用 save()
的正确方法是什么? save()
可以使用数据库名称和表名称等选项来插入,还是只插入 HDFS 路径?
例子 :
df\
.write\
.format('orc')\
.mode('overwrite)\
.option('database', db_name)\
.option('table', table_name)\
.save()
I am using Pyspark and want to insert-overwrite partitions into a existing hive table.
- in this use case
saveAsTable()
is not suitable, it overwrites the whole existing table insertInto()
is behaving strangely: I have 3 partition levels, but it is inserting one
Snd what is the right way to use save()
?
Can save()
take options like database-name and table name to insert into, or only HDFS path?
example :
df\
.write\
.format('orc')\
.mode('overwrite)\
.option('database', db_name)\
.option('table', table_name)\
.save()
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论