当前位置：文江博客话题详情

将实时数据存储到 1000 个文件中

发布于 2024-07-21 07:35:10 字数 511 浏览 5 评论 0原文

我有一个程序可以接收 1000 个主题的实时数据。它平均每秒接收 5000 条消息。每条消息由两个字符串、一个主题和一个消息值组成。我想保存这些字符串以及指示消息到达时间的时间戳。

我在“Core 2”硬件上使用 32 位 Windows XP，并使用 C# 进行编程。

我想将这些数据保存到 1000 个文件中——每个主题一个。我知道很多人会想告诉我将数据保存到数据库中，但我不想走这条路。

我考虑了几种方法：

1) 打开 1000 个文件并在数据到达时写入每个文件。我对此有两个担忧。我不知道是否可以同时打开1000个文件，也不知道这会对磁盘碎片产生什么影响。

2) 写入一个文件，然后以某种方式对其进行处理以生成 1000 个文件。

3) 将所有内容保存在 RAM 中直到一天结束，然后一次写入一个文件。我认为如果我有足够的内存，这会很好用，尽管我可能需要迁移到 64 位才能超过 2 GB 限制。

您将如何解决这个问题？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

情域 2024-07-28 07:35:10

我无法想象为什么您不想为此使用数据库。这就是它们被建造的目的。他们很擅长。

如果您不愿意走这条路，将它们存储在 RAM 中并每小时将它们轮换到磁盘可能是一种选择，但请记住，如果您被电源线绊倒，您就会丢失大量数据。

严重地。数据库吧。

编辑：我应该补充一点，如果您准备好了硬件，那么获得一个强大的、可复制的和完整的数据库支持的解决方案将花费您不到一天的时间。

在任何其他环境中执行这种级别的事务保护将花费您数周的时间来设置和测试。

回复收藏 0 原文

帅冕 2024-07-28 07:35:10

像 n8wrl 一样，我也推荐一个 DB。但如果你真的不喜欢这个功能......

让我们找到另一个解决方案;-)

在最小的步骤中我会采取两个线程。第一个是工作人员，接收所有数据并将每个对象（时间戳、两个字符串）放入队列中。

另一个线程将检查此队列（可能通过事件信息或通过检查 Count 属性）。该线程将使每个对象出队，打开特定文件，将其写下来，关闭文件并继续下一个事件。

通过第一种方法，我将开始并查看性能。如果很糟糕，请进行一些计量，找出问题所在并尝试完成它（将打开的文件放入字典（名称、streamWriter）等）。

但另一方面，数据库可以很好地解决这个问题......
一张表，四列（id、时间戳、主题、消息），主题上的一个附加索引，准备就绪。

回复收藏 0 原文

两仪 2024-07-28 07:35:10

首先计算带宽！ 5000 条消息/秒，每 2kb = 10mb/秒。每分钟 - 600mb。好吧，你可以把它放到 RAM 中。然后每小时冲洗一次。

编辑：更正错误。对不起这是我的错。

回复收藏 0 原文

等风来 2024-07-28 07:35:10

我同意 Oliver 的观点，但我建议进行修改：有 1000 个队列，每个主题/文件一个。一个线程接收消息，给它们加上时间戳，然后将它们放入适当的队列中。另一个只是轮流浏览队列，看看它们是否有数据。如果是，它将读取消息，然后打开相应的文件并将消息写入其中。关闭文件后，它会移动到下一个队列。这样做的优点之一是，如果无法跟上流量，您可以添加额外的文件写入线程。不过，我可能会首先尝试设置一个写入阈值（推迟处理队列，直到它收到 N 条消息）来批量写入。这样，您就不会因为只写入一两条消息而陷入打开和关闭文件的困境。

回复收藏 0 原文

七颜 2024-07-28 07:35:10

我想更多地探讨一下为什么您不想使用数据库 - 他们非常擅长这样的事情！但就你的选择而言...

1000 个打开的文件句柄听起来不太好。忘记磁盘碎片——操作系统资源会很糟糕。
这接近于 db-ish-ness！听起来也像是比其价值更多的麻烦。
RAM = 易失性。你花了一整天的时间积累数据，下午 5 点突然停电。

我该如何处理这个问题？ D B！因为这样我就可以查询索引、分析等等

。:)

回复收藏 0 原文

旧时光的容颜 2024-07-28 07:35:10

我同意 Kyle 的观点，并选择像 PI 这样的打包产品。请注意，PI 相当昂贵。

如果您正在寻找定制解决方案，我会选择斯蒂芬的解决方案，并进行一些修改。让一台服务器接收消息并将其放入队列中。但您不能使用文件将消息传递给其他进程，因为您将不断遇到锁定问题。可能使用诸如 MSMQ（MS 消息队列）之类的东西，但我不确定其速度。

我还建议使用数据库来存储数据。不过，您会想要将数据批量插入到数据库中，因为我认为您需要一些重型硬件来允许 SQL 每秒执行 5000 个事务。您最好对队列中累积的每 10000 条消息进行批量插入。

数据大小：

平均消息 ~50 字节 ->
小日期时间 = 4 字节 + 主题（~10 个非 unicode 字符）= 10 字节 + 消息 -> 31 个字符（非 unicode）= 31 个字节。

50 * 5000 = 244kb/秒 -> 14MB/分钟-> 858MB/小时

回复收藏 0 原文

心碎无痕… 2024-07-28 07:35:10

也许您不想要数据库安装的开销？

在这种情况下，您可以尝试基于文件系统的数据库，例如 sqlite：

SQLite 是一个软件库，
实现了一个独立的，
无服务器、零配置、
事务性 SQL 数据库引擎。
SQLite 是部署最广泛的 SQL
世界上数据库引擎。这
SQLite 的源代码位于
公共领域。

回复收藏 0 原文

溇涏 2024-07-28 07:35:10

我会制作两个单独的程序：一个用于获取传入请求，格式化它们并将它们写入一个文件，另一个用于从该文件读取并将请求写出。通过这种方式，您可以最大限度地减少打开的文件句柄数量，同时仍然实时处理传入请求。如果您制作第一个程序格式，它的输出正确，那么将其处理为单个文件应该很简单。

回复收藏 0 原文

风和你 2024-07-28 07:35:10

我会保留传入消息的缓冲区，并定期在单独的线程上按顺序写入 1000 个文件。

回复收藏 0 原文

月亮坠入山谷 2024-07-28 07:35:10

如果您不想使用数据库（我会，但假设您不想），我会将记录写入单个文件，追加操作尽可能快，并使用单独的进程/服务将文件拆分为 1000 个文件。您甚至可以每 X 分钟滚动一次文件，例如，每 15 分钟您启动一个新文件，而另一个进程开始将它们拆分为 1000 个单独的文件。

所有这些确实引出了一个问题：为什么不是数据库，为什么需要 1000 个不同的文件 - 你可能有一个很好的理由 - 但话又说回来，也许你应该重新考虑你的策略并确保它在你之前是合理的推理沿着这条路走得很远。

回复收藏 0 原文

如果没有你 2024-07-28 07:35:10

我会考虑购买实时数据历史包。类似于 PI System 或 Wonderware Data Historian。我之前曾在文件和 MS SQL 数据库中尝试过类似的操作，但结果并不好（这是客户的要求，我不会建议这样做）。这些产品有 API，甚至还有包，您可以像 SQL 一样查询数据。

它不允许我发布超链接，因此只需谷歌搜索这两种产品，您就会找到有关它们的信息。

编辑

如果您确实像大多数人建议的那样使用数据库，我会为历史数据的每个主题推荐一个表，并考虑表分区、索引以及要存储数据的时间。

例如，如果您要存储一天的时间及其每个主题的一个表，那么您将查看每秒 5 次更新 x 一分钟 60 秒 x 一小时 60 分钟 x 24 小时 = 每天 432000 条记录。导出数据后，我想您必须清除第二天的数据，这将导致锁定，因此您必须对写入数据库的操作进行排队。然后，如果您要重建索引，以便可以对其进行任何查询，这将导致架构修改锁和 MS SQL Enterprise Edition 进行在线索引重建。如果您不每天清除数据，则必须确保有足够的磁盘空间来保存数据。

基本上我所说的是权衡购买可靠产品和构建自己的产品的成本。

回复收藏 0 原文

~没有更多了~