当前位置：文江博客话题详情

thread_local 的成本

发布于 2024-12-21 08:19:16 字数 231 浏览 4 评论 0原文

既然 C++ 正在添加 thread_local 存储作为一种语言功能，我想知道一些事情：

thead_local 的成本可能是多少？
- 在记忆中？
- 用于读取和写入操作？
与之相关的是：操作系统通常如何实现这一点？似乎任何声明的 thread_local 都必须为创建的每个线程提供特定于线程的存储空间。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

唐婉 2024-12-28 08:19:16

存储空间：变量的大小 * 线程数，或者可能是 (sizeof(var) + sizeof(var*)) * 线程数。

实现线程本地存储有两种基本方法：

使用某种系统调用来获取有关当前内核线程的信息。 Sloooow。
使用一些指针，可能在处理器寄存器中，该指针在内核每次线程上下文切换时正确设置 - 同时与所有其他寄存器一样。便宜。

在英特尔平台上，变体 2 通常通过某些段寄存器（FS 或 GS，我不记得了）来实现。 GCC 和 MSVC 都支持这一点。因此，访问时间与全局变量的访问时间一样快。

这也是可能的，但我还没有在实践中看到它，因为这是通过现有的库函数（如 pthread_getspecic）来实现的。性能将类似于 1. 或 2.，加上库调用开销。请记住，变体 2.+ 库调用开销仍然比内核调用快得多。

回复收藏 0 原文

許願樹丅啲祈禱 2024-12-28 08:19:16

Uli Drepper（glibc 的维护者）对其在 Linux 上的工作原理的描述可以在这里找到：www.akkadia.org/drepper /tls.pdf

处理动态加载模块等的要求使整个机制有点复杂，这也许部分解释了为什么该文档的重量为 79 页（！）。

在内存使用方面，每个线程变量显然需要它自己的线程内存（尽管在某些情况下，这可以延迟完成，以便仅在首次访问变量时才分配空间），然后还有一些额外的数据结构偏移表等所需。

从性能角度来看，访问 TLS 变量的额外成本主要与检索变量的地址有关。在 x86 Linux 上，GS 寄存器用作获取线程 id 的起点，在 x86-64 FS 上。通常会有一些指针取消引用，以及动态加载代码的函数调用（__tls_get_addr）。创建新线程的速度也会变慢，因为实现需要分配空间并可能初始化所有 TLS 变量（如果不延迟完成）。

TLS 非常适合轻松地将一些旧的线程不安全代码模式变为线程安全（例如 errno），但对于从一开始就为多线程世界设计的新代码来说，很少需要它。

回复收藏 0 原文

~没有更多了~