Azure 数据湖的增量表中创建了多少个版本
我有一个澄清问题。根据我所读到的内容,Delta 表创建 0——表中一行的原始数据,1——更新的数据版本。
那么基本上我们在 Delta 表中只有两个版本的数据,或者这是可配置的?当我们多次更新同一行时,增量表只保留最新版本的更新,会发生什么?
提前致谢。
I have a clarification question. As per what I have read, Delta tables create 0--original data, 1--updated data version of a row in a table.
So basically we have just two versions of the data in Delta tables or this is configurable? what happens, when we update same row multiple times, delta table simply keep latest version of updates?
Thanks in advance.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Delta 将为每个操作创建一个新版本 - 插入/更新/删除,以及其他操作,例如更改表属性、优化、真空等,尽管某些操作不会创建新文件(更新表属性) ,甚至删除不使用的文件(真空)。
请注意,Delta 中的数据文件是不可变的,当您更新或删除数据时,Delta 会识别哪些文件包含要更新/删除的数据,并使用修改后的数据创建新文件。这就是为什么定期运行 VACUUM 很重要,这样您就可以摆脱旧文件(尽管它会限制您的时间旅行能力仅限于给定的时间段 - 默认情况下为一周)
Delta will create a new version for each operation - insert/update/delete, and also for additional operations, like, changing properties of the table, optimize, vacuum, etc., although some operations will not create new files (update table properties), or even delete not used files (vacuum).
Please take into account that data files in Delta aren't mutable, when you update or delete data, Delta identifies which files contain the data for update/delete, and create new files with modified data. That's why it's important to run VACUUM periodically, so you can get rid of the old files (although it will limit your ability to time travel just to the given period of time - one week by default)