有一堆品牌(大概20万),如何进行归并,并匹配发源地国家
现有一堆品牌,中英混合,?️重复,大概20万条。
怎样进行归并好一些呢?相同的品牌,如耐克和nike?
怎样准确匹配发源地国家,比如,耐克匹配美国。
算法时间无所谓,但是,准确性要求高。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
现有一堆品牌,中英混合,?️重复,大概20万条。
怎样进行归并好一些呢?相同的品牌,如耐克和nike?
怎样准确匹配发源地国家,比如,耐克匹配美国。
算法时间无所谓,但是,准确性要求高。
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
这个问题需要对概念之间的相似度建模,不大容易解决。
理想的情况是有一个外部数据库,存储着品牌和国家之间的对应关系,以及品牌的中英文名称对照。
如果什么资源都没有,可以借助搜索引擎返回的结果,相同的品牌的搜索结果是非常相似的,比如你在百度搜索nike 和 耐克,返回页面是很相似的。
品牌和国家的匹配也可以类似去做,比如抓百度百科页面里的总部地点信息等。
但这种办法的准确率不会特别高,处理也比较麻烦。