在 SQL Server 2008 中插入/更新大量数据的最佳实践

发布于 2024-08-22 16:25:01 字数 317 浏览 7 评论 0原文

我正在构建一个系统，用于通过各种 CSV 源更新大量数据。通常我会循环遍历提要中的每一行，执行选择查询来检查该项目是否已存在，并根据项目是否存在插入/更新该项目。

我觉得这种方法的可扩展性不太好，并且可能会在更大的提要上对服务器造成影响。我的解决方案是像平常一样循环遍历这些项目，但将它们存储在内存中。然后，对于每 100 个左右的项目，对这 100 个项目进行选择，并获取数据库中匹配的现有项目的列表。然后将插入/更新语句连接在一起并将它们运行到数据库中。这基本上会减少数据库访问次数。

这是一个足够可扩展的解决方案吗？是否有有关将大型提要导入生产环境的示例教程？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

我们只是彼此的过ke 2024-08-29 16:25:01

鉴于您使用的是 SQL Server 2008，我建议您采用以下方法：

首先将 CSV 文件批量复制到临时表中，
然后使用 MERGE 命令从该临时表更新目标表

查看 MSDN 文档和关于如何使用 MERGE 命令的精彩博客文章。

基本上，您可以根据公共条件（例如公共主键）在实际数据表和临时表之间创建链接，然后您可以定义当

行匹配时要执行的操作，例如该行同时存在于源和源中。目标表-->通常，您要么更新一些字段，要么完全忽略
源中的行在目标中不存在 -->通常是 INSERT 的情况，

您将有一个类似如下的 MERGE 语句：

MERGE TargetTable AS t
USING SourceTable AS src
ON t.PrimaryKey = src.PrimaryKey

WHEN NOT MATCHED THEN
  INSERT (list OF fields)
  VALUES (list OF values)

WHEN MATCHED THEN
  UPDATE
    SET (list OF SET statements)
;

当然，如果需要，可以更多地涉及 ON 子句。当然，您的 WHEN 语句也可以更复杂，例如

WHEN MATCHED AND (some other condition) THEN ......

等等。

MERGE 是 SQL Server 2008 中一个非常强大且非常有用的新命令 - 如果可以的话，请使用它！

Seeing that you're using SQL Server 2008, I would recommend this approach:

first bulkcopy your CSV files into a staging table
update your target table from that staging table using the MERGE command

Check out the MSDN docs and a great blog post on how to use the MERGE command.

Basically, you create a link between your actual data table and the staging table on a common criteria (e.g. a common primary key), and then you can define what to do when

the rows match, e.g. the row exists in both the source and the target table --> typically you'd either update some fields, or just ignore it all together
the row from the source doesn't exist in the target --> typically a case for an INSERT

You would have a MERGE statement something like this:

MERGE TargetTable AS t
USING SourceTable AS src
ON t.PrimaryKey = src.PrimaryKey

WHEN NOT MATCHED THEN
  INSERT (list OF fields)
  VALUES (list OF values)

WHEN MATCHED THEN
  UPDATE
    SET (list OF SET statements)
;

Of course, the ON clause can be much more involved if needed. And of course, your WHEN statements can also be more complex, e.g.

WHEN MATCHED AND (some other condition) THEN ......

and so forth.

MERGE is a very powerful and very useful new command in SQL Server 2008 - use it, if you can!

回复收藏 0 原文

强辩 2024-08-29 16:25:01

你的方法是最糟糕的解决方案。一般来说，您不应该考虑单独循环记录。我们曾经有一个公司构建了一个循环记录的导入工具，加载一个超过一百万条记录的文件需要 18-20 个小时（这种情况在构建时并不经常发生，但这是现在一天发生）。

我看到两个选择：
首先使用批量插入加载到临时表，然后在该表上执行需要执行的任何清理操作。您如何确定该记录是否已经存在？您应该能够通过连接到临时表中确定更新的那些字段来构建基于集的更新。通常，我会在临时表中添加一列，以获取与其匹配的记录的 ID，并通过查询填充该列，然后完成更新。然后插入没有相应 ID 的记录。如果您有太多记录无法一次完成，您可能需要分批运行（这是一个循环），但每次要使批次远大于 1 条记录（我通常从 2000 开始，然后根据确定我是否可以在批次中做更多或更少所需的时间）。

我认为2008年也有merge语句，但我还没有机会使用它。在网上的书上查一下。

另一种方法是使用针对速度进行了优化的 SSIS。 SSIS 是一件复杂的事情，学习曲线也很陡峭。

回复收藏 0 原文