避免在 SSIS 中完全编写 SQL 查询

发布于 2024-09-01 18:47:17 字数 190 浏览 7 评论 0原文

在从事数据仓库项目时，为我们提供教程的人建议我们坚持使用 SQL 查询而不是定义大量数据流转换，并指出它会消耗 ETL 盒上的大量内存，因此我们而是将处理留给数据库盒。这真的是可取的吗？依赖 GUI 工具与在集成包上执行一堆 SQL 脚本之间的平衡在哪里？

老实说，我想尽可能避免编写 SQL 查询。（但这不是重点。我真的很想客观地看待这个问题。）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半城柳色半声笛 2024-09-08 18:47:17

答案是：这取决于情况，但您希望为任何给定的工作选择其中之一，并尽可能避免将两者混合。

一般来说，最好要么在工具中执行所有可能的操作，要么在存储过程代码中执行所有可能的操作。当层之间有大量逻辑分割时，系统将变得更难以跟踪和调试。

如果该工具可以在数据流不变得尴尬和复杂的情况下进行转换，您可以使用该工具并尝试在查询中很少或没有逻辑。这意味着单层具有业务逻辑，并且在哪里可以找到它应该相当明显。然而，ETL 工具在处理高度复杂的转换方面往往表现较差。这种方法的最佳点是在拥有大量数据源但转换相对简单的系统上。
如果您有相对复杂的转换，您最好将所有业务逻辑和转换放入存储过程层中。 SQL 代码更擅长以可维护的方式实现复杂的转换 - 我有相当权威的说法，银行和保险行业中大约一半的数据仓库项目正是出于这个原因而使用这种类型的架构。
在这种情况下，可以使用ETL工具来实现相对哑的数据副本。源数据基本上可以逐字复制到暂存区，然后由执行 ETL 的存储过程代码体获取。 ETL 工具可用于数据复制、批量加载操作、日志记录、调度和其他框架任务。

无论哪种情况，您最好选择一种方法。否则，您最终可能会发现业务逻辑分布在提取层、数据库视图、数据流和存储过程代码中。分布在多个层的逻辑更难测试。

例如，当所有逻辑都包含在存储过程或集中的 ETL 转换作业中时，您可以单独对给定的转换进行单元测试。设计的清晰度也有助于维护和审计。

The answer is: it depends, but you want to pick one or the other for any given job and avoid mixing the two where possible.

Generally, it's best to either do everything possible within the tool or do everything possible within stored procedure code. When you have significant amounts of logic split between layers the system becomes harder to trace and debug.

Where the tool can do the transformations without the data flows becoming awkward and convoluted you could use the tool and try to have little or no logic in queries. This means that one single layer has the business logic and it should be fairly obvious where to find it. However, ETL tools tend to handle highly complex transformations relatively poorly. The sweet spot for this type of approach is on systems where you have a large number of data sources but relatively simple transformations.
If you have relatively complex transformations you may be better off putting all the business logic and transformation into a layer of stored procedures. SQL code is better at implementing complex transformations in a maintainable way - I have it on fairly good authority that around half of all data warehouse projects in the banking and insurance sectors use this type of architecture for precisely that reason.
In this case the ETL tool can be used to implement relatively dumb data copies. Source data can be copied into staging areas essentially verbatim and then picked up by a body of stored procedure code that does the ETL. The ETL tool can be used for data copies, bulk load operations, logging, scheduling and other framework tasks.

In either case you're best off picking one approach. Otherwise, you can end up with business logic spread across extraction layers, database views, data flows, and stored procedure code. Logic spread across multiple layers is much harder to test.

When all of the logic is (for example) contained within stored procedures or focussed ETL transformation jobs you can unit test a given transformation in isolation. The clarity in design also helps with maintenance and auditing.

回复收藏 0 原文

很酷又爱笑 2024-09-08 18:47:17

我发现使用 SQl 代码不仅运行速度更快，而且开发速度更快并且更容易维护。

回复收藏 0 原文

剑心龙吟 2024-09-08 18:47:17

通常，当您想要单独处理每一行时，请使用数据流，否则最好使用 Sql 命令。

就我个人而言，我会尽可能地编写 SQL。以后优化会更容易并且（通常）也更快。谷歌将给出更详细的答案。

另一个需要考虑的因素是您用于连接的提供商。

您需要根据您的需求做出决定。我们使用 postgres DB，因此我们必须为某些进程创建大量临时表，这会加快整个过程的速度。

您还应该考虑它运行的盒子，如果您有一个功能强大的数据库盒子和一个小 ETL 盒子，那么运行任何东西都是没有意义的。

如果您在 ETL 盒上进行所有处理，您还将在网络上拖动大量数据。

查看以下链接以帮助您入门：

ssistalk.com/category/ssis/ssis-advanced-techniques/

msdn.microsoft.com/en-us/library/ms141031.aspx

weblogs.sqlteam.com/jamesn/Default.aspx

回复收藏 0 原文

偏爱自由 2024-09-08 18:47:17

我认为这是一个很难回答的问题；还有一个有趣的。

恕我直言，使用 SSIS 的原因之一是提高可维护性。如果您将所有逻辑打包在 SQL 语句中（您当然可以！），您可能会破坏使用 SSIS 的初衷。您再也无法真正“看到数据流”了。

另一方面，我觉得有时放置得当的 SQL 语句也有其价值。例如，当您从表中读取数据时，无论出于何种原因，您都知道您只需要满足条件 X 的行，而我看不到读取整个表的原因，并且在下一步中“有条件地拆分大部分数据”。
顺便说一句，我不知道这对性能意味着什么。 SSIS 是否足够聪明，能够看到正在发生的情况，并将“读取整个表和条件分割”更改为“从 where X 选择 Y”（或者在构建时） /部署）？

最大的问题是在哪里划清界限。这在一定程度上取决于从事 ETL 流程的人员。如果支持该流程的每个人从一开始就了解 SQL，那么与您的同事（或客户或您关心的继任者）几乎不了解所有 SQL 中发生的情况相比，您可以更好地在 ETL 中支持更多的 SQL ，更不用说对其进行更改/改进/添加了。

所以我认为最重要的是，不使用 SQL 或在 SQL 中执行所有操作都不是更好。尝试制定一些适合您的要求并且每个人都可以接受的简单规则，然后遵循它们。这可以让您从使用 SSIS 中获得最大的价值。

回复收藏 0 原文

亂 2024-09-08 18:47:17

SQL Server 有些事情做得很好，有些事情做得不太好。我使用 SSIS 从 SQL Server 导入或导出数据。在迁移过程中，我会在有意义的地方使用 SSIS。我可以轻松地按行进行工作，这在 SQL Server（游标）中效率不高。如果说您不应该在 ETL 盒上使用转换和数据流，因为它在 ETL 盒上太昂贵，就像说“不要将汽车开得太快，因为这会导致引擎工作”。 ETL 和 SSIS 的目的是将 SQL Sever 不能很好地完成的一些处理转移到可以完成的引擎上。

回复收藏 0 原文