Informatica - 重复消除
我有一个包含 10 条记录的平面文件,其中 5 条记录是重复记录(唯一键列:Customer_Id
和 source_system
)。该平面文件必须加载到 Oracle 表,这是第一次加载。
我怎样才能消除其中的重复项?
I am having a flat file with 10 records, and out of it 5 records are duplicate records (unique key column: Customer_Id
and source_system
). This flat file has to load to a Oracle table and this is the first load.
How can I eliminate the duplicates in it?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
有很多方法可以处理此问题:
There are quite a few ways to handle this:
您始终可以使用聚合器转换并按您想要保持不同的所有数据进行分组。因此,如果您按所有列进行分组,那么最终只会出现那些不同的列。
You can always use an Aggregator transform and group by all the data you want to keep it distinct for. So if you group by all the columns only those who are distinct will come in the end.
您可以使用排序器并检查加载不同的行。
You can use sorter and check load distinct rows.
SRC-->SQ-->SRT-->EXP-->RTR-->TGT
您来自源的 inout 是
在排序器中按 col1 排序数据,在排序器数据之后看起来像这样
在 exp 中您有两个输入ports
按如下顺序创建变量端口和输出端口
然后表达式数据的输出如下所示
在路由器中创建两组,一组用于唯一记录,另一组用于重复记录。
将两个组连接到两个目标。SRC-->SQ-->SRT-->EXP-->RTR-->TGT
您来自源的 inout 是
在排序器中按 col1 排序数据,排序器数据看起来像 在 exp 中,
您有两个输入端口,
按如下顺序创建变量端口和输出端口
然后表达式数据的输出如下所示
在路由器中,创建两组,一组用于唯一记录,另一组用于重复记录。
将两个组连接到两个目标。
SRC-->SQ-->SRT-->EXP-->RTR-->TGT
You inout from source is
In sorter sort data by col1 and after sorter data looks like this
In exp you have two input ports
create variable ports and output ports in the order like below
Then out put of expression data looks like this
In router create two groups one for unique records and another one for duplicate records.
connect two groups to two targets.SRC-->SQ-->SRT-->EXP-->RTR-->TGT
You inout from source is
In sorter sort data by col1 and after sorter data looks like this
In exp you have two input ports
create variable ports and output ports in the order like below
Then out put of expression data looks like this
In router create two groups one for unique records and another one for duplicate records.
connect two groups to two targets.