用于在 Windows 上存储简单数据的高读取性能数据库解决方案

发布于 2024-10-18 22:32:07 字数 762 浏览 0 评论 0原文

我虽然有一个简单的问题，但最近几天我一直在努力解决这个问题。长话短说，这里是对其的描述：

我每天大约有 100 万条新记录，每条记录由 record_name （字符串，约 20 个字符）、日期, value，记录保存时间约为两年（数据库中约7亿条记录）；
大多数 record_names 每天都会重复；
我需要能够找到给定日期之间的最大价值增益，同时保留通过通配符 record_name 来过滤结果的能力；
运行此软件需要在 Windows XP 上运行。
最重要的是每个查询的执行时间。

到目前为止我已经尝试过 MySQL 数据库和 Cassandra。虽然 MySQL 在 Linux 上的性能相当可以接受（我所说的“可接受”是指我的技能不太高，足以编写出可以运行的东西），但在 Windows 上却非常慢。卡桑德拉也是如此。

插入到这些数据库的数据是从 .csv 文件导入的。第一次导入 MySQL 大约需要 5 分钟，导入 Cassandra 大约需要 20 分钟，后者需要更多时间。我怀疑我可能配置错误，但说实话 - 我没有更改配置文件中任何与性能相关的内容。

问题是：在考虑性能的情况下处理此类数据的最佳解决方案是什么。编程语言并不重要，几乎任何语言都可以工作，因为查询很简单，并且用任何语言实现它们都不会花费大量时间。

非常感谢您有兴趣提供帮助。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

摘星┃星的人 2024-10-25 22:32:07

如果没有更多细节，所提出的问题似乎是相当经典的 BI 问题，其中解决方案通常是预先物化聚合数据，优化查询而不是插入。

我首先问一个简单的问题 - 你需要数据库中的所有数据吗？我很想将不同的聚合 - 所有、记录类型等按时间范围（例如按天或小时）烹饪成更简单、更小的行集，使用简单的控制台应用程序读取行、计算聚合，然后将它们转储到 SQL 中进行访问通过查询。

虽然在所有行中选择 * 很酷 - 除非有真正的业务需求，否则请抵制它。
考虑到聚合查询，No-SQL 存储会分散注意力，普通的 ol' 文件非常适合保留原始行存储，而 SQL 等工具对于聚合查询来说绰绰有余。

回复收藏 0 原文

金兰素衣 2024-10-25 22:32:07

您需要首先确定瓶颈。可能的选项：硬盘驱动器、数据库、驱动程序、应用程序代码。您还应该尝试 postresql，但说实话，让某些东西在 Windows 上可靠运行的选择很少。除非您使用 Windows SQL Server（不是免费的）。 Cassandra 和 MySql 也非常不同，解决不同的问题。

回复收藏 0 原文

仅一夜美梦 2024-10-25 22:32:07

另一个值得考虑的选择是 Berkeley DB。它体积小、速度快、可扩展且非常轻量。它支持各种 API，包括 SQL、键值对 (NoSQL) 和 Java 对象持久性 API。一般来说，Berkeley DB 的性能优于通用 RDBMS，因为它更小、更高效且开销更少。 Berkeley DB 在 Windows 上运行，对于寻求简单、易于使用的嵌入式数据管理的开发人员来说是一个绝佳的选择。

回复收藏 0 原文