如何根据SSI中数据来自的表添加列?
我有两个源表: ext_agreements abs_agreements 都具有相同的列:“每个表都有不同的数据,这只是一个示例:“ ID, START_DATE, END_DATE, 01, 28/02/…
当源查看列更改时,如何防止DBT重建增量表?
我们在DBT中具有以下结构: [events (view), with column1, column2, column3]‒‒‒>[incremental1, using column1 from events] | | └‒‒‒‒>[in…
从Azure SQL数据库到雪花
我正在考虑将雪花作为数据仓库。我的数据库位于Azure SQL数据库中,我想知道从Azure SQL数据库到Snowflake的ETL需要哪些工具。 我认为Snowpark可以用…
Pentaho Spoon搜索并替换了行中的特别角色
我有一个带有MIME TYPE US-ASCII的CSV文件,数据集中的一列看起来像: ID v_name 210001 cha?ne des Puys 210030 m?los 213004 g?ll? 213021 s?p…
在数据湖环境中,我们如何优化涉及非常大的目标表(10 TB)和较小的增量源表的增量合并?
最近,我在其中一次采访中遇到了这个问题,但无法找到这个问题令人满意的答案。增量合并可以包含插入的新记录以及对旧记录的更新。 我建议使用合并陈…
SCD开始和结束日期
我是SSI的新手,当我们使用SCD Dimension向导时,我对SCD_START_DATE和SCD_END_DATE感到有些困惑。在我在线搜索的许多示例中,人们总是使用“系统启…
是单个表,具有多个更新比在RedShift中不同时间插入的多个表更好
我有一个任务事实表,其中包含以下列 任务ID(BIGINT) 用户ID(BIGINT) 创建时间戳(时间戳) 首次分配的时间戳(TIMESTAMP) 首次分配时间(bigint…
红移设计或配置问题? - 我的RedShift DataWarehouse似乎比MySQL数据库慢得多
我有一个RedShift DataWarehouse,它正在从多个来源获取数据。 一个是我来自mySQL,其他是一些基于云的数据库。 在Redshift中查询时,查询响应比同一M…
使用两个日期之间的DimCalendar更新天
我有两张表: 。 待日开设 日间 日间 2022-04-21 2022-04-24 null 2022-03-03-12 , 在DWH(SQL Server)中 2022-04-27 DWH 日间 2022-03-01 2022-04-…
点击室TTL设置,其中有状态
我有一个带有以下DDL的表: CREATE TABLE default.pricing_rate_latest_state_union_test ( `organization_id` Int32, `organization_name` String, `…