如何在DBT中使用CETA（Synapse无服务器池）？

发布于 2025-01-17 16:31:01 字数 394 浏览 4 评论 0 原文

在 Synapse Serverless Pool 中，我可以使用 CETAS 创建外部表并将结果导出到 Azure Data Lake Storage。

CREATE EXTERNAL TABLE external_table
WITH (
    LOCATION = 'location/',
    DATA_SOURCE = staging_zone,  
    FILE_FORMAT = SynapseParquetFormat
)  
AS
SELECT * FROM table

它将在 Synapse 中创建一个名为 external_table 的外部表，并将 parquet 文件写入 Azure Data Lake 中的暂存区域。

我怎样才能在 dbt 中做到这一点？

原文

In Synapse Serverless Pool, I can use CETAS to create external table and export the results to the Azure Data Lake Storage.

CREATE EXTERNAL TABLE external_table
WITH (
    LOCATION = 'location/',
    DATA_SOURCE = staging_zone,  
    FILE_FORMAT = SynapseParquetFormat
)  
AS
SELECT * FROM table

It will create an external table name external_table in Synapse and write a parquet file to my staging zone in Azure Data Lake.

How can I do this in dbt?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

北陌 2025-01-24 16:31:01

我试图做一些非常类似的事情并使用 Synapse Serverless Pool 运行我的 dbt 项目，但遇到了几个问题。最终我被CETAS误导了。创建外部表时，它会创建一个文件夹层次结构，并在其中放置 parquet 文件。如果您要运行与示例中的脚本相同的脚本，则会失败，因为您无法使用 CETAS 进行覆盖。因此 dbt 能够像任何其他模型一样运行它，但它不容易被覆盖。也许如果您在每次运行脚本时动态制作一个新的镶木地板并删除旧的镶木地板，但这似乎就像在出血伤口上贴上一块小绷带，即突触和无连接池交互。由于这个原因，我不得不改变我的架构。

我试图导出为镶木地板以维护列数据类型和描述，因此我不必重新绘制图表。另外，我还可以根据管道中的增量点创建表。我最终找到了一种方法，使用 dbt-突触适配器。然后，如果我需要一个增量表，我可以通过 dbt 和 dbt-synapse 将其具体化为表并以这种方式访问它。

您导出的 parquet 文件的目标是什么？

也许我们可以找到另一种解决方案？

这里是 dbt-synapse-serverless 适配器 github，其中列出了无服务器池的注意事项。