相似文本数据的概率聚类技术?

发布于 2024-09-14 06:45:00 字数 416 浏览 3 评论 0原文

我在各种文档上有 20,000 个公司地址,这些地址的格式都不同。例如:

  • A公司 12345街 美国

  • CompanyA, Inc 街 12345 号 2 号盒子 美国华盛顿州

  • The Company B 有限公司 123 happy street UK

  • company B, Ltd 123, happy street, london, S1 1AA

我希望能够合并每个公司的记录(即将上述内容分为 2 类,每个公司一类)。

我不知道该怎么做。我认为任何聚类本质上都是概率性的,并且对于更容易的匹配可能效果很好,但随后需要手动审查不太可能/更不确定的匹配。

谁能说出适合此类任务的技术吗?

非常感谢!

I have 20,000 company addresses on various documents, which are all formatted differently. For example:

  • Company A
    12345 street
    US

  • CompanyA, Inc
    box2, 12345 street
    WA, US

  • The Company B company Ltd
    123 happy street UK

  • company B, Ltd
    123, happy street, london, S1 1AA

I'd like to be able to combine the records for each company (i.e. seperate the above into 2 categories, one per company).

I have no idea about how to go about this. I assume any clustering will be probabilistic in nature, and probably work well for easier matches, but then require manual review for less likely/more uncertain matches.

Can anyone name any techniques suitable for this type of task?

many thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

薄暮涼年 2024-09-21 06:45:00

也许自动语法归纳是一种可以在这里产生结果的技术。您可以尝试推断文本的语法,然后使用某种比较指标对推断的语法进行聚类。

Perhaps automatic grammar induction is a technique that would yield results here. You could attempt to infer grammars for your text and then use some kind of comparison metrics to cluster the inferred grammars.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文