当前位置：文江博客话题详情

如何搭建大型数据库本地环境

发布于 2024-12-08 11:00:05 字数 312 浏览 1 评论 0原文

我有两个存储（PostgreSQL、MongoDB），并且由于我需要在计算机上本地开发应用程序（最好是离线），因此我需要将这些存储中的数据复制到我的 HDD。

无论如何，这些都是包含大约数百GB数据的大型数据库。

我不需要存储在那里的所有数据，只需要其中的样本就能够在该数据上本地启动我的应用程序。两种存储都有一些用于数据导出的强大工具（pg_dump、mongodump、mongoexport 等）。

但我不知道如何轻松有效地进行小样本数据的导出。即使我会获取所有表/集合的列表并构建一些白名单，这将定义应该限制行数的表，但触发器、函数、索引等也会出现问题。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

厌味 2024-12-15 11:00:05

我不知道 MongoDB 的测试，但对于 PostgreSQL，这就是我所做的。

我在针对数据库进行开发时遵循一种模式，将数据库端与应用程序端分开。为了测试数据库端，我有一个测试模式，其中包括一个重置真实模式中所有数据的存储过程。此重置是按照 MERGE 模式完成的（删除具有无法识别的键的任何记录，更新具有匹配键但已更改的记录，并插入丢失的记录）。在运行每个单元测试之前调用此重置。这为我提供了存储函数的简单、清晰的测试覆盖范围。

为了测试调用数据库的代码，数据库层始终被模拟，因此永远不会有任何实际调用数据库。

您所描述的内容向我表明您正在尝试将单元测试与集成测试混合在一起，我强烈建议您不要这样做。当您已经证明了基本功能并且想要证明组件之间的集成以及可能还包括性能时，就会发生集成测试。对于 IT 来说，您确实需要代表性硬件上的代表性数据集。通常这意味着一台专用机器，并使用 hudson 进行 CI。

您似乎要进入的方向将会很困难，因为正如您已经注意到的那样，很难处理如此大量的数据，并且很难生成有代表性的数据集（大多数 CI 系统实际上使用的是经过“清理”的生产数据” 的敏感信息）

这就是为什么我工作过的大多数地方都没有这样做。

回复收藏 0 原文