当前位置：文江博客话题详情

multithreading pthreads c++ large-files bigdata

没有互斥体的基于模数的负载平衡？

发布于 2024-11-04 21:20:07 字数 212 浏览 7 评论 0原文

我可能会搞错，但这是我的问题和建议的解决方案：

您有一个 50+ GB 的文件，其中包含数亿条独立记录，需要非常快速地处理。我当前的解决方案是每小时获取 7400 万条记录。我为 I/O 线程使用阻塞队列，每个工作线程都尝试从该队列中获取数据块。

由于 I/O 和工作线程之间的互斥争用，上述速度相当慢。

有没有办法在没有锁的情况下实现这种风格的生产者/消费者？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

错々过的事 2024-11-11 21:20:07

不要使用阻塞队列并让工作线程从中拉出，而是为每个线程提供自己的队列，并让 I/O 线程将批量工作推送到每个线程的队列中。

循环队列对此非常有用，假设您不介意花费额外的精力来实现某种方法来跟踪可以将多少项目推入每个队列；如果 I/O 线程读取新记录的速度比工作线程处理记录的速度快，则必须小心，不要覆盖未处理的记录。

确保记录不被覆盖的一种方法是让工作线程每隔一段时间发送一条消息来更新 I/O 线程，其中包含已处理的记录数。这种方法不需要锁定；只是经常更新 I/O 线程的原子操作。

除此之外，在将最后一批数据推入队列时，您还可以通过使用非阻塞 I/O 读取更多记录来获得更好的性能。它还有助于了解瓶颈是磁盘访问还是处理。

回复收藏 0 原文

一梦浮鱼 2024-11-11 21:20:07

单个读取器线程将可用大小的块放入消费者访问的队列中怎么样？或者让消费者将自己的 ID 放入队列中，文件读取器每次读取另一个块时都会从中提取该队列。后者可能不会经常阻塞读者。

回复收藏 0 原文

囚你心 2024-11-11 21:20:07

存在单生产者单消费者 (SPSC) 无锁队列。由此，您可以让生产者线程以循环方式将工作分派给每个工作人员（每个工作人员一个队列）。请注意，某些队列可能会满，在这种情况下（本轮）忽略它们。

关于IO：你真的可以分割文件吗？如果您有一种廉价的方法来检测记录的结尾，那么分割文件并将各个部分放在不同的机器上可能会很简单。或者直接购买更快的硬盘。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文