相似文本数据的概率聚类技术?
我在各种文档上有 20,000 个公司地址,这些地址的格式都不同。例如:
A公司 12345街 美国
CompanyA, Inc 街 12345 号 2 号盒子 美国华盛顿州
The Company B 有限公司 123 happy street UK
company B, Ltd 123, happy street, london, S1 1AA
我希望能够合并每个公司的记录(即将上述内容分为 2 类,每个公司一类)。
我不知道该怎么做。我认为任何聚类本质上都是概率性的,并且对于更容易的匹配可能效果很好,但随后需要手动审查不太可能/更不确定的匹配。
谁能说出适合此类任务的技术吗?
非常感谢!
I have 20,000 company addresses on various documents, which are all formatted differently. For example:
Company A
12345 street
USCompanyA, Inc
box2, 12345 street
WA, USThe Company B company Ltd
123 happy street UKcompany B, Ltd
123, happy street, london, S1 1AA
I'd like to be able to combine the records for each company (i.e. seperate the above into 2 categories, one per company).
I have no idea about how to go about this. I assume any clustering will be probabilistic in nature, and probably work well for easier matches, but then require manual review for less likely/more uncertain matches.
Can anyone name any techniques suitable for this type of task?
many thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
也许自动语法归纳是一种可以在这里产生结果的技术。您可以尝试推断文本的语法,然后使用某种比较指标对推断的语法进行聚类。
Perhaps automatic grammar induction is a technique that would yield results here. You could attempt to infer grammars for your text and then use some kind of comparison metrics to cluster the inferred grammars.