收集、存储和检索大量数值数据

发布于 2024-09-30 11:55:48 字数 580 浏览 4 评论 0原文

我即将开始实时收集大量数字数据（对于那些感兴趣的人，各种股票和期货的出价/要价/最后或“磁带”）。稍后将检索数据以进行分析和模拟。这一点也不难，但我想高效地完成它，这带来了很多问题。我不需要最好的解决方案（无论如何，根据指标可能有很多“最佳”）。我只想要一个计算机科学家会认可的解决方案。（或者不笑？）

(1) 优化磁盘空间、I/O 速度或内存？

对于模拟来说，整体速度很重要。我们希望数据的 I/O（实际上是 I）速度比计算引擎快，因此我们不受 I/O 限制。

(2) 存储文本或其他内容（二进制数字）？

(3) 给定 (1)-(2) 中的一组选择，是否有任何出色的语言/库组合可以完成这项工作——Java、Python、C++，还是其他什么？

我会将此代码归类为“写完就忘记”，因此更注重效率而不是代码的清晰度/紧凑性。我非常非常愿意坚持使用 Python 来编写模拟代码（因为模拟确实改变了很多并且需要清晰）。因此，优秀的 Pythonic 解决方案会加分。

编辑：这是针对 Linux 系统（Ubuntu）的，

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

橪书 2024-10-07 11:55:48

优化磁盘空间和 IO 速度是同一件事 - 如今，CPU 与 IO 相比速度如此之快，以至于在存储数据之前压缩数据通常总体上更快（您可能确实想这样做）。我确实不认为内存发挥了重要作用（尽管您可能应该使用合理大小的缓冲区来确保进行顺序写入）。
二进制更紧凑（因此更快）。考虑到数据量，我怀疑人类可读是否有任何价值。文本格式的唯一优点是，如果它被损坏或丢失解析代码，更容易找出并纠正。

回复收藏 0 原文

两个我 2024-10-07 11:55:48

Fame 是一种常用的时间序列存储商业解决方案。

如果你认真对待这个问题，建立自己的将是一项艰巨的任务。 HDF 可能有用，他们声称它适合刻度数据处理，并且具有 C++ 访问权限。此处提供了 Python 支持。

遇到同样问题的人的有用的现实生活经验此处，包括 HDF5 参考。

回复收藏 0 原文

花落人断肠 2024-10-07 11:55:48

实际上，这与我正在做的事情非常相似，即监控玩家在游戏中对世界所做的改变。我目前正在使用 python 的 sqlite 数据库。
在程序开始时，我将磁盘数据库加载到内存中，以便快速编写程序。每个更改都会放入两个列表中。这些列表适用于内存数据库和磁盘数据库。每 x 左右更新，内存数据库就会更新，并且计数器会增加 1。重复此操作，当计数器等于 5 时，它会被重置，并且磁盘更改列表将刷新到磁盘数据库并清除列表。我发现如果我还将写入更多设置为 WOL(Write提前记录）。如果我每 100 次更新更新一次内存，并且将磁盘计数器设置为每 5 次内存更新更新，则此方法每秒可以承受大约 100-300 次更新。您可能应该选择二进制，感觉，除非您的数据源有错误，否则是最合乎逻辑的

回复收藏 0 原文

假装不在乎 2024-10-07 11:55:48

使用 D-Bus 格式发送信息可能对您有利。该格式是标准的、二进制的，并且D-Bus可以用多种语言实现，并且可以用于通过网络发送和在同一台机器上进行进程间发送。

回复收藏 0 原文

嘿看小鸭子会跑 2024-10-07 11:55:48

如果你只是存储，那么使用系统工具。不要自己写。如果您需要在存储数据之前对其进行一些实时处理，那么情况就完全不同了。

回复收藏 0 原文

つ低調成傷 2024-10-07 11:55:48

在阅读在给定特定条件下有效存储整数的这篇文章后，我才想到这一点当我们将刻度数据存储为双精度数或浮点数或其他类型时，我们浪费了很多位。 价格是量化的！并且相当严格。例如，昨天的NQ范围约为2175-2191，即约26点，量化为0.25。因此，这将报价限制为约 100 个不同的价格。明白我要说的是什么吗？每个价格只需要一个字节。股票以 0.01 量化，因此每日范围内每美元需要约 1 个字节。

所以我概述的方法是：
(1) 将最高价、最低价和增量存储为一行标题
(2) 之后将报价数据存储为两个字节，最左边的两个位用于编码报价类型（00 = 最后，01 = 出价，11 = 询问）

我认为这是 CS 会批准的！

回复收藏 0 原文

~没有更多了~