使用句子级别相似性进行释义识别

发布于 2024-10-11 03:54:32 字数 365 浏览 8 评论 0原文

我是 NLP（自然语言处理）的新人。作为一个启动项目，我正在开发一个释义识别器（一个可以识别两个相似句子的系统）。对于该识别器，我将在三个级别应用各种措施，即：词汇、句法和语义。在词汇层面，有多种相似性度量，如余弦相似性、匹配系数、杰卡德系数等。对于这些度量，我使用谢菲尔德大学开发的 simMetrics 包，其中包含许多相似性度量。但对于 Levenshtein 距离和 Jaro-Winkler 距离度量，代码仅位于字符级别，而我需要句子级别的代码（即将单个单词视为一个单位而不是逐个字符）。此外，SimMetrics 中没有用于计算曼哈顿距离的代码。对于如何在上述措施的句子级别开发所需的代码（或有人向我提供代码），有什么建议吗？

预先非常感谢您花时间和精力帮助我。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

月朦胧 2024-10-18 03:54:32

我已经在 NLP 领域工作了几年，我完全同意那些提供答案/评论的人。这确实是一个很难破解的难题！但是，我仍然提供一些提示：

（1）词汇相似性：如果你开发一个字符级或单词级语言模型，而不是试图将 Jaro-Winkler 距离推广到句子级，它可能会更有成效，并计算对数似然。让我进一步解释一下：基于语料库训练你的语言模型。然后取出大量已被注释为与语料库中的句子相似/不相似的候选句子。计算每个测试句子的对数似然，并建立一个截止值来确定相似性。

(2) 句法相似性：到目前为止，只有文体相似性才能捕捉到这一点。为此，您需要使用 PCFG 解析树（或 TAG 解析树。TAG = 树邻接语法，CFG 的概括）。

(3)语义相似性：我一时之间只能想到使用Wordnet等资源，识别同义词集之间的相似性。但这也不简单。您的第一个问题是确定两个（或更多）句子中的哪些单词是“对应单词”，然后再继续检查它们的语义。

回复收藏 0 原文