当前位置：文江博客话题详情

HD 中数据密集型读写的最佳实践有哪些？

发布于 2024-10-14 01:35:08 字数 360 浏览 13 评论 0原文

我正在开发一个 C++ 应用程序（在 Linux 机器中运行），该应用程序在读取日志文件并将派生结果写入磁盘方面非常密集。我想知道优化此类应用程序的最佳实践：

哪些操作系统调整可以提高性能？
哪些编程模式可以提高 IO 吞吐量？
预处理数据（转换为二进制、压缩数据等）是一种有用的措施吗？
分块/缓冲数据有助于提高性能吗？
我应该注意哪些硬件功能？
哪些实践最适合分析和测量这些应用程序的性能？
（在这里表达我所缺少的担忧）

是否有一本好的读物可以让我了解这方面的基础知识，以便我可以根据我的问题调整现有的专业知识？

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

冷血 2024-10-21 01:35:26

在 Windows 上，将 CreateFile() 与 FILE_FLAG_SEQUENTIAL_SCAN 和/或 FILE_FLAG_NO_BUFFERING 一起使用，而不是 fopen() - 至少对于写入来说，它会立即返回，而不是等待数据刷新到磁盘

回复收藏 0 原文

绝對不後悔。 2024-10-21 01:35:22

正如此处所述，您应该检查块的大小。您可以使用 stat 系列函数来完成此操作。
在 struct stat 中，此信息位于字段 st_blksize 中。

第二件事是函数 posix_fadvise()，它向操作系统提供有关分页的建议。您告诉系统您将如何使用文件（甚至文件的片段）。您可以在手册页上找到更多信息。

回复收藏 0 原文

千鲤 2024-10-21 01:35:18

获取有关您将写入/读取的卷的信息，并创建与该卷的特征匹配的缓冲区。例如 10 * clusterSize。

缓冲很有帮助，因为可以最大限度地减少您必须执行的写入量。

回复收藏 0 原文

红ご颜醉 2024-10-21 01:35:16

1) 检查磁盘的扇区大小。
2) 确保磁盘已进行碎片整理。
3) 读取上次读取的“本地”数据，以提高缓存局部性（缓存由操作系统执行，许多硬盘驱动器也有内置缓存）。
4）连续写入数据。

为了提高写入性能，将数据块缓存在内存中，直到达到扇区大小的倍数，然后启动对磁盘的异步写入。在确定数据已写入（即同步写入）之前，请勿覆盖当前正在写入的数据。双缓冲或三缓冲在这里可以提供帮助。

为了获得最佳读取性能，您可以双缓冲读取。假设您在读取时缓存 16K 块。将第一个 16K 从磁盘读取到块 1。启动将第二个 16K 异步读取到块 2。开始处理块 1。完成块 1 后，同步块 2 的读取，并开始异步读取块 1 的数据。将第 3 个 16K 块写入块 1。现在处理块 2。完成同步读取第 3 个 16K 块后，启动将第 4 个 16K 异步读取到块 2 并处理块 1。冲洗并重复，直到处理完所有数据数据。

如前所述，您需要读取的数据越少，从磁盘读取所浪费的时间就越少，因此读取压缩数据并花费 CPU 时间扩展每个读取块可能是值得的。在写入之前同样压缩块将节省磁盘时间。这是否成功实际上取决于您处理数据的 CPU 密集程度。

此外，如果对块的处理是不对称的（即处理块 1 的时间可能是处理块 2 的 3 倍），则请考虑对读取进行三重或更多缓冲。

回复收藏 0 原文