为什么 TeraSort 映射阶段在 CRC32.update() 函数中花费大量时间？

发布于 2024-11-30 12:34:41 字数 906 浏览 1 评论 0原文

我正在尝试分析哪些函数在 TeraSort Hadoop 作业中消耗最多时间。对于我的测试系统，我使用基本的 1 节点伪分布式设置。这意味着NameNode、DataNode、Tasktracker 和Jobtracker JVM 都运行在同一台机器上。

我首先使用 TeraGen 生成约 9GB 的数据，然后对其运行 TeraSort。当 JVM 执行时，我使用 VisualVM 对它们的执行进行采样。我知道这不是最准确的分析器，但它是免费且易于使用的！我使用最新版本的 Apache hadoop 发行版，并且我的实验在基于 Intel Atom 的系统上运行。

当我查看 VisualVM 中热点方法的自用时间 (CPU) 时，我发现 java.util.zip.CRC32.update() 函数占用了总时间的近 40%。当我在调用树中查看此函数时，它是由映射器的 main() 函数调用的，特别是当 IdentityMapper.map() 从 HDFS 读取输入文件时。实际调用 CRC32.update() 函数的函数是 org.apache.hadoop.fs.FSInputChecker.readChecksumChunk()

我对此有三个问题：

为什么要为正在读取的块更新 CRC32 校验和HDFS？如果我理解正确的话，一旦读取了一个块，从磁盘读取的数据与该块的 CRC 的简单比较应该是唯一的操作，而不是生成和更新块的 CRC 值。
我查了更新函数的源码，它是由java.util.zip.CRC32.java文件实现的。调用的具体函数是具有三个参数的重载 update() 方法。由于这个函数是用Java实现的，是否有可能多层抽象（Hadoop，JVM，CPU指令）降低了CRC计算的本机效率？
最后，我的 VisualVM 检测方法或采样结果的解释是否存在严重错误？

谢谢，

原文