Dalvik 和 Android 工具链可以带来哪些优化？

发布于 2024-10-16 00:25:16 字数 979 浏览 7 评论 0原文

我正在开发一个高性能 Android 应用程序（一款游戏），虽然我首先尝试编写代码以提高可读性，但我喜欢在脑海中保留一幅幕后发生的事情的图片。通过 C++，我对编译器能为我做什么和不能做什么有了相当好的直觉。我正在尝试为 Java/Android 做同样的事情。

于是就有了这个问题。我在网上找不到关于这个主题的信息。 Java 编译器、Dalvik 转换器 (dx) 和/或 JITter（在 Android 2.2+ 上）是否会执行如下优化？

方法内联。在什么条件下？ 私有方法始终可以安全地内联；这会完成吗？ public Final 方法怎么样？其他类的对象上的方法？ 静态方法？如果编译器可以轻松推断出对象的运行时类型怎么办？我应该尽可能将方法声明为 final 或 static 吗？
公共子表达式消除。例如，如果我访问 someObject.someField 两次，查找只会完成一次吗？如果这是对 getter 的调用怎么办？如果我使用某个算术表达式两次怎么办？只会评估一次吗？如果我使用某个表达式的结果（我知道其值不会更改）作为 for 循环的上限会怎样？
数组查找的边界检查。工具链是否会在某些条件下消除这种情况，例如典型的 for 循环？
值内联。对某些 public static final int 的访问是否总是内联的？即使他们在另一个班级？即使它们在另一个包中？
分支预测。这究竟是一个多大的问题呢？在典型的 Android 设备上，分支是否会对性能造成很大影响？
简单的算术。将 someInt * 2 替换为 someInt << 1?

诸如此类...

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

樱娆 2024-10-23 00:25:16

我是 Ben，JIT @ Google 的工程师之一。当 Bill 和我开始这个项目时，目标是尽快交付一个有效的 JIT，同时对资源争用（例如内存占用、CPU 被编译器线程劫持）影响最小，以便它可以在低端设备上运行出色地。因此我们使用了一个非常原始的基于跟踪的模型。也就是说，传递给 JIT 编译器的编译实体是一个基本块，有时短至一条指令。此类跟踪将在运行时通过称为链接的技术缝合在一起，以便解释器和代码缓存查找不会经常被调用。在某种程度上，加速的主要来源来自于消除频繁执行的代码路径上重复的解释器解析开销。

也就是说，我们确实使用 Froyo JIT 实现了相当多的本地优化：

寄存器分配（v5te 目标的 8 个寄存器，因为 JIT 生成 Thumb 代码/v7 的 16 个寄存器）
调度（例如，Dalvik 寄存器的冗余 ld/st 消除、加载提升，存储下沉）
冗余空检查消除（如果可以在基本块中找到这种冗余）。
简单计数循环的循环形成和优化（即循环体中没有侧出口）。对于此类循环，基于扩展归纳变量的数组访问被优化，以便仅在循环序言中执行空和范围检查。
每个虚拟调用点有一个条目内联缓存，并在运行时进行动态修补。
窥视孔优化，例如减少 mul/div 文字操作数的功耗。

在 Gingerbread 中，我们为 getter/setter 添加了简单的内联。由于底层 JIT 前端仍然是基于简单的跟踪，因此如果被调用者在其中有分支，则不会内联。但是内联缓存机制的实现使得虚拟 getter/setter 可以毫无问题地内联。

我们目前正在努力扩大编译范围，超越简单的跟踪，以便编译器有更大的窗口进行代码分析和优化。敬请关注。

This is Ben, one of the engineers working on the JIT @ Google. When Bill and I started on this project, the goal was to deliver a working JIT as soon as possible with minimal impact to resource contention (eg memory footprint, CPU hijacked by the compiler thread) so that it can run on low-end devices as well. Therefore we used a very primitive trace based model. That is, the compilation entity passed to the JIT compiler is a basic block, sometimes as short as a single instruction. Such traces will be stitched together at runtime through a technique called chaining so that the interpreter and code cache lookup won't be invoked often. To some degree the major source of speedup comes from eliminating the repeated interpreter parsing overhead on frequently executed code paths.

That said, we do have quite a few local optimizations implemented with the Froyo JIT:

Register allocation (8 registers for v5te target since the JIT produces Thumb code / 16 registers for v7)
Scheduling (eg redundant ld/st elimination for Dalvik registers, load hoisting, store sinking)
Redundant null check elimination (if such redundancy can be found in a basic block).
Loop formation and optimization for simple counted loops (ie no side-exit in the loop body). For such loops, array accesses based on extended induction variables are optimized so that null and range checks are only performed in the loop prologue.
One entry inline cache per virtual callsite w/ dynamic patching at runtime.
Peephole optimizations like power-reduction on literal operands for mul/div.

In Gingerbread we added simple inlining for getters/setters. Since the underlying JIT frontend is still simple trace based, if the callee has branches in there it won't be inlined. But the inline cache mechanism is implemented so that virtual getters/setters can be inlined without problems.

We are currently working on enlarging the compilation scope beyond a simple trace so that the compiler has a larger window for code analysis and optimization. Stay tuned.

回复收藏 0 原文

雪花飘飘的天空 2024-10-23 00:25:16

我确信我的答案不会回答您的所有问题，但我想如果它回答了一个问题，那就是一场胜利。

您似乎对该主题有深入的了解并且知道自己想要什么，因此您可能想要执行以下操作。构建一个包含您想要研究的方面的示例应用程序。

获取您获得的 APK 并通过 APK 工具运行它。据我们所知，对您自己的代码进行逆向工程以执行您想要的操作是完全可以的。

APK 工具将提取并解码您的资源，并将 .dex 文件逆向工程为 .smali 文件。您可能还想查找 smali 项目，以获取有关如何阅读 < code>.smali 文件及其限制。

我再次确信这不会回答您的所有问题，但这可能是一个好的开始。

回复收藏 0 原文

ぺ禁宫浮华殁 2024-10-23 00:25:16

首先，我先声明一下，我不是dalvik方面的专家，我的一些回答可能是错误的。但我深入研究了dalvik中的JIT代码，对dalvik运行的字节码相当熟悉。

方法内联 - 据我所知，这种情况永远不会发生。我几乎肯定它永远不会在字节码级别发生，而且我认为它目前不会在 JIT 级别发生 - 尽管将来可能会发生。
公共子表达式消除 - 我相信这只适用于不使用任何非最终变量/字段的子表达式。即使到那时我也不完全肯定它是否会发生。如果完成，我希望它在字节码级别完成，可能不是 JIT 级别。
数组查找的边界检查 - 没有线索
值内联 - 据我所知，是的 - 它们将在所有这些场景中内联。
>
分支预测 - 不确定
简单算术 - 据我所知还不够

另外，我想提一下另一种接近您的途径 - dx 和 dalvik 都是开源的，因此您可以根据自己的喜好深入研究它们。不过，它们显然不是小代码库，因此需要付出相当大的努力才能在这个级别上深入研究它们