当前位置：文江博客话题详情

text-processing cluster-analysis

相似文本数据的概率聚类技术？

发布于 2024-09-14 06:45:00 字数 416 浏览 3 评论 0原文

我在各种文档上有 20,000 个公司地址，这些地址的格式都不同。例如：

A公司 12345街美国
CompanyA, Inc 街 12345 号 2 号盒子美国华盛顿州
The Company B 有限公司 123 happy street UK
company B, Ltd 123, happy street, london, S1 1AA

我希望能够合并每个公司的记录（即将上述内容分为 2 类，每个公司一类）。

我不知道该怎么做。我认为任何聚类本质上都是概率性的，并且对于更容易的匹配可能效果很好，但随后需要手动审查不太可能/更不确定的匹配。

谁能说出适合此类任务的技术吗？

非常感谢！

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

薄暮涼年 2024-09-21 06:45:00

也许自动语法归纳是一种可以在这里产生结果的技术。您可以尝试推断文本的语法，然后使用某种比较指标对推断的语法进行聚类。

回复收藏 0 原文

~没有更多了~

关于作者

烧了回忆取暖

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

亚希

文章 0 评论 0

cyp

文章 0 评论 0

北漠

文章 0 评论 0

11223456

文章 0 评论 0

坠似风落

文章 0 评论 0

游魂

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文