当前位置：文江博客话题详情

multithreading performance c declspec

C - __declspec(thread) 变量性能

发布于 2024-10-19 03:43:45 字数 512 浏览 1 评论 0原文

我正在研究一个库的多线程实现。在该库的一个模块中，有一些全局变量（在程序执行中经常使用）。为了使对这些变量的访问更加安全，我使用线程本地存储 (TLS) 关键字 __declspec(thread) 声明它们。

这是对库外部函数的调用。该函数使用带有全局变量的模块：

for(i = 0; i<n_cores; i++)
    hth[i] = (HANDLE)_beginthread((void(*)(void*))MT_Interface_DimenMultiCells,0,(void*)&inputSet[i]);

这样我猜库中使用的所有变量都会为每个线程重复。

当我在 x8 核处理器上运行程序时，完成操作所需的时间不会超过单进程实现所需时间的 1/3。

我知道不可能达到1/8的时间，但我想至少1/6是可以达到的。

问题是：这些 __declspec(thread) 变量是性能如此糟糕的原因吗？

I'm working on the multithreading implementation of a library. In one module of this library there are some global variables (very often used in the program execution). In order to make the access to those variables more safe, I declared them using the Thread-local storage (TLS) keyword __declspec(thread).

Here is the call to the library external function. This function uses the module with the global variables:

for(i = 0; i<n_cores; i++)
    hth[i] = (HANDLE)_beginthread((void(*)(void*))MT_Interface_DimenMultiCells,0,(void*)&inputSet[i]);

In this way I guess all the variables used in the library will be duplicated for each thread.

When I run the program on a x8 cores processor, the time required to complete the operation doesn't go further than 1/3 the time needed for the single process implementation.

I know that it is impossible to reach 1/8 of the time, but i thought that at least 1/6 was reachable.

The question is: are those __declspec(thread) variables the cause of so bad performances?

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

婴鹅 2024-10-26 03:43:45

如果将它们声明为 __declspec(thread) ，而它们以前是全局的，那么您就改变了程序的含义及其性能特征。

当变量是全局变量时，每个线程都会引用一个副本。作为线程局部变量，每个单独的线程都有自己的变量，并且对该线程局部变量的更改仅在该线程中可见。

假设您确实想要线程局部变量，那么读写线程局部变量确实比普通变量更昂贵。每当您遇到需要很长时间才能执行的操作时，最好的解决方案就是完全停止执行该操作。在这种情况下，有两种明显的方法可以做到这一点：

将变量作为参数传递，以便它驻留在堆栈上。访问堆栈变量很快。
如果您有经常读写此变量的函数，则在函数开头获取它的副本（放入局部变量中），处理该局部变量，然后在返回时将其写回线程局部变量。

在这些选项中，通常首选前者。选项 2 有一个很大的弱点，即如果函数调用另一个使用此变量的函数，则很难应用它。

选项 1 基本上相当于不使用全局变量（线程局部变量是全局变量的一种形式）。

当然，这一切可能完全偏离了主题，因为您对代码实际作用的描述太少了。如果你想解决性能问题，你首先必须确定问题出在哪里，这意味着你需要进行测量。

回复收藏 0 原文

桜花祭 2024-10-26 03:43:45

答案是：您需要分析应用程序，并测量花费最多时间的地方。如果事实证明它在经常引用 TLS 数据的函数中，那么“也许”可能就是答案。

即使在您自己编写的代码中，通常很难找出性能不佳的原因：在两个短段落描述的程序中远程执行此操作甚至更加困难。

配置文件，然后优化。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

22 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文