Spark流与静态数据链球三分表的可靠性如何可靠

发布于 2025-01-22 10:46:10 字数 284 浏览 2 评论 0原文

在databricks 有一个很酷的功能使用Delta表加入流数据框。很酷的部分是，对于随后的联接结果，增量表中的更改仍会反映出来。它可以正常工作，但是我很想知道这是如何工作的，这里有什么局限性？例如，预期更新延迟是什么？随着增量表的增长，它如何变化？在生产中依靠它是安全的吗？

需要登录才能够评论，你可以免费注册一个本站的账号。

牛↙奶布丁 2025-01-29 10:46:10

是的，您可以依靠此功能（实际上是Spark） - 许多客户在生产中使用它。关于其他问题 - 这里有多个方面，取决于因素，例如，表更新的频率等：

由于静态三角洲表没有缓存，因此在每个联接上都重新阅读了 - 取决于群集配置，因此可能不会如果您使用 delta caching 所以，文件不是每次都重新下载，仅重新下载新数据。
如果您有很多小文件等，则阅读性能可能会受到影响 - 这取决于您如何写入该表格＆amp;如果您做的事情（例如优化）。
根据三角洲表更新的频率，您可以缓存＆amp;定期刷新它，

但要完全完全回答，您需要提供更多特定于代码，用例等的信息。

~没有更多了~