字符串与字节数组，性能

发布于 2024-12-12 01:36:11 字数 645 浏览 0 评论 0原文

（这篇文章是关于高频类型编程的）

我最近在一个论坛上看到（我认为他们正在讨论 Java），如果你必须解析大量字符串数据，最好使用字节数组而不是带有 split() 的字符串。确切的帖子是：

使用任何语言（C++、Java、C#）的一个性能技巧是以避免创建对象。这不是分配或GC的成本，而是访问不适合 CPU 缓存的大型内存阵列的成本。
现代 CPU 的速度比内存快得多。他们为许多人拖延，每个缓存未命中的周期数。大部分 CPU 晶体管预算是分配以通过大缓存和大量滴答来减少这种情况。
GPU 通过准备大量线程来以不同的方式解决问题执行以隐藏内存访问延迟，并且具有很少或没有缓存，并且将晶体管用在更多的内核上。
因此，例如，不要使用 String 和 split 来解析消息，使用可以就地更新的字节数组。你真的想要避免对大型数据结构进行随机内存访问，至少在内循环。

他只是说“不要使用字符串，因为它们是一个对象，并且创建对象的成本很高”？还是他在说别的？

使用字节数组是否可以确保数据尽可能长时间地保留在缓存中？当你使用一个字符串时，它是否太大而无法保存在CPU缓存中？一般来说，使用原始数据类型是编写更快代码的最佳方法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夏日落 2024-12-19 01:36:11

他说，如果将大块文本分解为单独的字符串对象，那么这些字符串对象的局部性比大文本数组的局部性更差。每个字符串及其包含的字符数组都将位于内存中的其他位置；它们可以散布到各处。当您处理数据时，内存缓存可能必须进出才能访问各种字符串。相比之下，一个大数组具有最佳的局部性，因为所有数据都位于内存的一个区域上，并且缓存抖动将保持在最低限度。

当然，这样做是有限制的：如果文本非常非常大，并且您只需要解析其中的一部分，那么这些小字符串可能比大块文本更适合缓存。

回复收藏 0 原文

童话里做英雄 2024-12-19 01:36:11

使用 byte[] 或 char* 而不是字符串进行 HFT 的原因还有很多。 Java 中的字符串由 16 位 char 组成，并且是不可变的。 byte[] 或 ByteBuffer 很容易回收，具有良好的缓存位置，可以在堆外（直接）保存副本，避免字符编码器。这一切都假设您使用的是 ASCII 数据。

char* 或 ByteBuffers 也可以映射到网络适配器以保存另一个副本。（对 ByteBuffers 进行一些摆弄）

在 HFT 中，你很少会同时处理大量数据。理想情况下，您希望在数据到达套接字后立即对其进行处理。即一次一包。（约 1.5 KB）