使用子树查找相似的代码段

发布于 2024-11-01 08:01:10 字数 850 浏览 6 评论 0原文

我一直在阅读这篇题为的论文使用抽象语法树进行克隆检测，作者：Ira D. Baxter 等人。我在下面转载了论文中的一段话：

原则上，寻找子树克隆很简单：将每个子树与每个其他子树都相等。在实践中，出现了几个问题：未遂克隆检测、亚克隆和规模。 ...
当定位未遂事件时克隆，在完整子树上进行散列失败正是因为良好的散列函数包括所有元素树，从而对头发进行较小的排序差异放入不同的桶中。我们通过选择一个解决了这个问题 人为错误的哈希函数。该函数的特征必须是这样的方式主要属性人们想要找到未遂的克隆被保留。侥幸逃脱的克隆是通常通过复制和粘贴创建程序之后是小修改。这些修改通常会对与相关的树的形状复制的一段代码。因此，我们认为这种未遂事件克隆通常只有一些不同小子树。基于此观察，一个哈希函数忽略小子树是不错的选择。 实验中在这里，我们使用了哈希函数只忽略标识符名称（树中的叶子）。因此我们的哈希函数将树这是相似的模标识符放入相同的哈希箱中比较。

我正在尝试实现本文中讨论的技术，但一直试图理解这一段（不幸的是在本文的开头）。我理解该段落的内容，但作者没有提及要选择什么哈希函数或如何实际对 AST 进行哈希处理。有人可以从实现的角度用一个简单的例子来解释这一点吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

舟遥客 2024-11-08 08:01:11

作者本人应该回答的色调。 StackOverflow 不是很棒吗:-？

哈希函数的要点是，您选择哪一个并不重要，只要它将输入值均匀地分布在大量存储桶中即可。你需要一个可以应用于整棵树的哈希函数；通常的技术是以任何可能的方式序列化树（例如，通过有序树访问），然后将哈希函数应用于由此产生的值流（树节点）。（这个想法来自于有关检测常见子表达式的编译器文献，这是原始 CloneDR 的灵感）。如果这还不清楚，您需要花费更多的精力来理解哈希函数如何应用于复杂的数据结构。关于散列的维基百科是一个很好的起点；如果这还不够，你需要找一本关于算法的书并学习。

您向哈希函数提供的内容取决于您。我在论文中提出的观点是，您可以计算忽略 AST 的标识符叶的哈希函数，这将导致具有相同结构但不同标识符的树哈希到同一桶。因此，具有相似模标识符的树很容易匹配，因为它们出现在同一个哈希桶中。

当然，整个克隆检测算法还有很多其他内容，只是匹配树模标识符。您需要担心匹配参数化序列（这是本文的重点）、报告结果，当然，无论您想要应用什么语言，您都需要一个高质量的语言解析器这个到。

您可以查看多种不同语言的 CloneDR 结果。

回复收藏 0 原文

冷…雨湿花 2024-11-08 08:01:11

如果您知道两个 AST 对于您的肉眼来说是“克隆”，您需要确保它们也具有相同的哈希值。

例如，将每个标识符哈希为一个常量，将每个字符串哈希为另一个常量，以避免被变量重命名所欺骗，而不是实际使用标识符名称作为哈希的实质部分。

或者对可交换的表达式使用交换哈希，即确保 a+b 和 b+a 获得相同的哈希值。

涉及变量、整数、运算符和括号的算术表达式示例：

 hash VariableName = 0x12345678
 hash IntegerConstant = 0xff77ff77
 hash x + y = (hash x) + (hash y)
 hash (x) = (hash x) <<< 13
 hash x * y = (hash x) xor (hash y)

等等。

If you know that two ASTs are "clones" to your human eye you want to make sure they have the same hash value also.

For example, hash every identifier to a constant and every string to another constant to avoid getting tricked by variable renaming, instead of actually using identifier name as material part of hashing.

Or use commutative hashing for expression that are commutative, I.e. make sure a+b and b+a get the same hash value.

Example for arithmetic expressions involving variables, integers, operators and parenthesis:

 hash VariableName = 0x12345678
 hash IntegerConstant = 0xff77ff77
 hash x + y = (hash x) + (hash y)
 hash (x) = (hash x) <<< 13
 hash x * y = (hash x) xor (hash y)

Etc.

回复收藏 0 原文

~没有更多了~