有一堆品牌(大概20万),如何进行归并,并匹配发源地国家

发布于 2022-09-02 10:30:27 字数 152 浏览 16 评论 0

现有一堆品牌,中英混合,?️重复,大概20万条。

  1. 怎样进行归并好一些呢?相同的品牌,如耐克和nike?

  2. 怎样准确匹配发源地国家,比如,耐克匹配美国。

算法时间无所谓,但是,准确性要求高。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

护你周全 2022-09-09 10:30:27

这个问题需要对概念之间的相似度建模,不大容易解决。

理想的情况是有一个外部数据库,存储着品牌和国家之间的对应关系,以及品牌的中英文名称对照。

如果什么资源都没有,可以借助搜索引擎返回的结果,相同的品牌的搜索结果是非常相似的,比如你在百度搜索nike耐克,返回页面是很相似的。

品牌和国家的匹配也可以类似去做,比如抓百度百科页面里的总部地点信息等。

但这种办法的准确率不会特别高,处理也比较麻烦。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文