C# 流设计问题

发布于 2024-08-11 16:18:11 字数 487 浏览 10 评论 0原文

我现在有一个应用程序是管道设计。在第一阶段，它将一些数据和文件读入流中。有一些中间阶段会对数据流进行处理。然后是最后一个阶段，将流写入某个地方。这一切都是连续发生的，一个阶段完成，然后移交给下一阶段。

这一切都运行得很好，但现在数据量开始变得相当大（可能达到数百 GB）。所以我想我需要做一些事情来缓解这种情况。我最初的想法是我正在寻找一些反馈（作为一名独立开发人员，我只是没有任何地方可以反馈这个想法）。

我正在考虑创建一个并行管道。启动管道的对象将创建所有阶段并在其自己的线程中启动每个阶段。当第一阶段使流达到一定大小时，它将将该流传递到下一个阶段进行处理，并启动自己的新流以继续填充。这里的想法是，最后阶段将关闭流，因为第一阶段正在构建新流，因此我的内存使用量将保持较低。

所以问题： 1）对此设计的方向有什么高层次的想法吗？ 2）是否有一种更简单的方法可以应用在这里？ 3）是否有任何现有的东西可以做类似的事情，我可以重复使用（不是我必须购买的产品）？

谢谢，

迈克D

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

他是夢罘是命 2024-08-18 16:18:12

对于您建议的设计，您需要仔细阅读生产者/消费者问题（如果您还没有的话）。您需要充分了解如何在这种情况下使用信号量。

您可以尝试的另一种方法是创建多个相同的管道，每个管道都在一个单独的线程中。这可能更容易编码，因为它的线程间通信要少得多。但是，根据您的数据，您可能无法通过这种方式将其拆分为块。

回复收藏 0 原文

眉目亦如画i 2024-08-18 16:18:12

在每个阶段中，您是否读取整个数据块，进行操作，然后将整个数据块发送到下一个阶段？

如果是这种情况，您正在使用“推送”技术，将整个数据块推送到下一阶段。您是否能够使用“拉动”技术以更像庄园的方式处理事情？每个阶段都是一个流，当您从该流读取数据时，它会通过调用 read 从前一个流中提取数据。当读取每个流时，它会以小位读取前一个流，对其进行处理并返回处理后的数据。目标流决定从前一个流中读取多少字节，并且您不必消耗大量内存。这就是 BizTalk 等应用程序的工作原理。有一些关于 BizTalk Pipeline 流如何工作的博客，我认为这可能正是您想要的。

这是您可能会感兴趣的多部分博客条目：

第 1 部分
 第 2 部分
 第三部分
 第 4 部分
 第 5 部分