蜂巢tblproperties等于pyspark中的parquet文件
我正在将HQL脚本转换为Pyspark。
hql代码:show tblproperties tblname('transient_lastddltime')
我想要parquet文件的“ transient_lastddltime”属性。我知道使用Delta Lake API有Delta选项卡有一种方法,但是有没有办法用于木板文件?
I'm converting hql scripts to pyspark.
HQL code : show tblproperties tblName ('transient_lastDdlTime')
I want "transient_lastDdlTime" property equivalent for parquet files. I know there is a way for delta tabes using delta lake APIs, but is there a way for parquet files?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我认为Parquet文件中没有任何这样的元数据等效于Transient_lastddltime,您可以通过编写一些Parquet文件并使用以下代码读取其元数据来检查
相同元数据只有一些基本的行和列信息。
您将需要实施自己的代码以捕获更改的时间戳
I don't think there is any such metadata in parquet files which will be equivalent of transient_lastDdlTime you can check the same by writing some parquet files and reading its metadata using below code
As you see there is no external metadata created like delta tables and parquet metadata only has some basic row and column information.
you will need to implement your own code for capturing timestamp of changes