当前位置：文江博客话题详情

Django 拥有庞大的 mysql 数据库

发布于 2024-09-12 13:51:19 字数 220 浏览 4 评论 0原文

将数百万记录 csv 文件导入 django 的最佳方法是什么？

目前使用python csv模块，处理100万条记录文件需要2-4天。它会检查记录是否已经存在，以及其他一些检查。

这个过程能否实现在几个小时内执行。

可以以某种方式使用memcache吗？

更新：还有 django ManyToManyField 字段也得到处理。这些将如何与直接负载一起使用。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

诺曦 2024-09-19 13:51:19

我不确定你的情况，但我们在 Django 中遇到了类似的情况，大约 3000 万条记录需要一天以上的时间才能导入。

由于我们的客户完全不满意（有失去项目的危险），在使用 Python 进行了几次失败的优化尝试之后，我们采取了根本性的策略改变，并使用 Java 和 JDBC（仅）进行了导入（+一些 mysql 调整），并得到了导入时间缩短至约 45 分钟（对于 Java，由于有非常好的 IDE 和分析器支持，因此很容易优化）。

回复收藏 0 原文

一袭白衣梦中忆 2024-09-19 13:51:19

我建议直接使用 MySQL Python 驱动程序。此外，您可能需要考虑一些多线程选项。

回复收藏 0 原文

￡冰雨忧蓝° 2024-09-19 13:51:19

根据数据格式（您说的 CSV）和数据库，您可能最好将数据直接加载到数据库中（直接加载到 Django 管理的表中，或加载到临时表中）。例如，Oracle 和 SQL Server 提供了用于加载大量数据的自定义工具。对于 MySQL，您可以使用很多技巧。例如，您可以编写一个 perl/python 脚本来读取 CSV 文件并创建一个包含插入语句的 SQL 脚本，然后将 SQL 脚本直接提供给 MySQL。

正如其他人所说，在加载大量数据之前始终删除索引和触发器，然后再将它们添加回来 - 每次插入后重建索引是主要的处理命中。

如果您正在使用事务，请关闭它们或批量插入以防止事务太大（太大的定义各不相同，但如果您正在处理 100 万行数据，请将其分解为 1000 个事务大概是对的）。

最重要的是，首先备份您的数据库！比由于导入失败而必须从备份恢复数据库更糟糕的事情是没有当前备份可以恢复。

回复收藏 0 原文

最好是你 2024-09-19 13:51:19

如前所述，您希望绕过 ORM 并直接访问数据库。根据您使用的数据库类型，您可能会找到直接加载 CSV 数据的好选项。对于 Oracle，您可以使用外部表进行非常高速的数据加载，对于 mysql，您可以使用LOAD 命令。我确信 Postgres 也有类似的东西。

加载数百万条记录不会花费近 2-4 天的时间；我经常使用 mysqldump 在几分钟内将包含数百万行的数据库加载到在负载终端机器上运行的 mysql 中。

回复收藏 0 原文

温柔戏命师 2024-09-19 13:51:19

就像克雷格说的，你最好先直接填充数据库。
这意味着创建适合 CSV 单元格的 django 模型（然后您可以创建更好的模型和脚本来移动数据）

然后，数据库馈送：执行此操作的首选工具是 Navicat，您可以在他们的网站上获取 30 天的功能演示地点。它允许您在 MySQL 中导入 CSV，将导入配置文件保存在 XML 中...
然后我会从 Django 中启动数据控制脚本，完成后，使用 South 迁移模型以获得所需的内容，或者像我之前所说的那样，在项目中创建另一组模型并使用脚本来转换/复制数据。

回复收藏 0 原文

~没有更多了~