创建ETL系统(数据导入和转换)
我的任务是编写一个用于将数据导入客户系统的模块。 我想将该过程分为 4 个部分:
1. 连接到数据源(SQL、Excel、Access、CSV、ActiveDirectory、Sharepoint 和 Oracle)- 完成
2. 从源获取可用的表/数据组 - 完成
i.获取所选表/数据组中的可用字段 - 完成
ii.获取所选字段的所有数据 - 完成
3.将数据转换为用户的要求
4. 将转换后的数据写入 MSSQL 目标
我正在尝试计划如何处理复杂的数据转换,例如:
从表 tblA 中获取列 A,内部连接到表 tblB 中的列 FA,并用分号将两者连接起来。
或者
从源上的表 tblC 中获取列 C,其中列 tblC.D 不在目标数据库上的表 tblG 列 G 中。
我担心的不是视觉效果,而是此操作的代码表示形式。
我不是要求示例代码,而是要求一些创意。
数据转换不会使用自由文本,而是使用拖放表示操作的对象。
我有点迷失了,需要一些新的输入。
I have been tasked to write a module for importing data into a client's system.
I thought to break the process into 4 parts:
1. Connect to the data source (SQL, Excel, Access, CSV, ActiveDirectory, Sharepoint and Oracle) - DONE
2. Get the available tables/data groups from the source - DONE
i. Get the available fields form the selected table/data group - DONE
ii. Get all data from the selected fields - DONE
3. Transform data to the user's requirements
4. Write the transformed data the the MSSQL target
I am trying to plan how to handle complex data transformations like:
Get column A from Table tblA, inner joined to column FA from table tblB, and concatenate these two with a semicolon in between.
OR
Get column C from table tblC on source where column tblC.D is not in table tblG column G on target database.
My worry is not the visual, but the representation in code of this operation.
I am NOT asking for sample code, but rather for some creative ideas.
The data transformation will not be with free text, but drag and drop objects that represent actions.
I am a bit lost, and need some fresh input.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
也许您可以从这个开源项目中获取一些想法:Rhino ETL。
maybe you can grab some ideas from this open source project: Rhino ETL.
查看我的答案:操作数据表中的值?
See my answer: Manipulate values in a datatable?