确定两个或多个摘要是否相似

发布于 2024-07-16 02:00:46 字数 317 浏览 17 评论 0原文

问题如下：

我有一个摘要，通常在 20 到 50 个单词之间，我想将其与其他相对相似的摘要进行比较。摘要所指的一般类别和地理位置是已知的。

例如，如果来自同一地区的人正在撰写有关建造房屋的文章，我希望能够以一定程度的确定性列出这些摘要，表明他们实际上指的是建造房屋而不是建造车库或后院游泳池。

该数据集目前约有 50,000 个文档，并且以每天约 200 个文档的速度增长。

首选语言是 Python、PHP、C/C++、Haskell 或 Erlang，无论哪种都可以完成工作。另外，如果您不介意的话，我想了解选择特定语言的原因。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

〆一缕阳光ご 2024-07-23 02:00:46

您可以尝试使用一些字符串相似性度量，例如 Jaccard 和 Dice，但不是计算字符重叠，而是计算单词重叠。例如，使用 Python，您可以使用以下命令：

def word_overlap(a, b):
    return [x for x in a if x in b]


def jaccard(a, b, overlap_fn=word_overlap):
    """
    Jaccard coefficient (/\ represents intersection), given by :
        Jaccard(A, B) = (A /\ B) / (|a|) + (|b|) - (A /\ B)
    """
    c = overlap_fn(a, b)
    return float(len(c)) / (len(a) + len(b) - len(c))

jaccard("Selling a beautiful house in California".split(), "Buying a beautiful crip in California".split())

You can try to use some string similarity measures, such as Jaccard and Dice, but instead of calculating character overlaps, you calculate word overlaps. For example, using Python, you can use the following:

def word_overlap(a, b):
    return [x for x in a if x in b]


def jaccard(a, b, overlap_fn=word_overlap):
    """
    Jaccard coefficient (/\ represents intersection), given by :
        Jaccard(A, B) = (A /\ B) / (|a|) + (|b|) - (A /\ B)
    """
    c = overlap_fn(a, b)
    return float(len(c)) / (len(a) + len(b) - len(c))

jaccard("Selling a beautiful house in California".split(), "Buying a beautiful crip in California".split())

回复收藏 0 原文

暮光沉寂 2024-07-23 02:00:46

由于Python对集合有很好的原生支持，我们可以修改 JG 代码为，

def jaccard(a, b):
    """
    Jaccard coefficient (/\ represents intersection), given by :
        Jaccard(A, B) = (A /\ B) / (|a|) + (|b|) - (A /\ B)
    """
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

jaccard(set("Selling a beautiful house in California"), set("Buying a beautiful crip in California"))

Since there is a native nice support for sets in python, we can modify JGs code as,

def jaccard(a, b):
    """
    Jaccard coefficient (/\ represents intersection), given by :
        Jaccard(A, B) = (A /\ B) / (|a|) + (|b|) - (A /\ B)
    """
    c = a.intersection(b)
    return float(len(c)) / (len(a) + len(b) - len(c))

jaccard(set("Selling a beautiful house in California"), set("Buying a beautiful crip in California"))

回复收藏 0 原文