商品匹配算法
对于一种商品:http://product.dangdang.com/23477630.html
用什么算法能知道他和另一家网站的http://www.amazon.cn/gp/product/B00KFM43CO/ref=s9_wish_gw_d66_g14_i1_gs9w?ie=UTF8&colid=39NFRLNN4TZIE&coliid=I8RBEPEFXAQE3&pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=center-2&pf_rd_r=123EVCKD7936886JAY79&pf_rd_t=101&pf_rd_p=212028152&pf_rd_i=899254051
是同一种商品呢?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
虽然没做过 但是以我很水的想法 大概是这样的
首先,我们保证几个前提:
(1)没人会在乎那种特别商品的比价,比如你不会在意在5173上买张点卡是比淘宝上便宜还是贵,换句话说越是热门商品,比如服装、电器越惹人关注
(2)电商网站,热门的就那么几个,这使得我们可以针对每个网站做特殊的抓取和处理
(3)考虑到seo,一个商品在一段时间内会被静态化为一个页面,这样只要拿到url就不需要分析他是什么商品(云的功劳~服务器存所有数据)
(4)你的工程师能力足够写出爬虫抓取所有的数据并分析出关键字段,这个就不讲了
说这么多废话,你认为真的可以通过比较页面来筛选同样的商品么,当然不能,但是有一些特征可以用:
(1)标题,最重要的,里面有商品名称和型号,当然你得写出一些算法来去掉宣传的语句,比如惊爆价,之类
(2)对于图书其实更简单,去找ISBN就是了,境内合法出版的图书只要比这个就行了
接下来就是对标题的一些处理,通过分词、命名实体识别,拿到商品型号之类,最后和页面URL关联起来就完了,当然,如果你认为标题的内容足够纯净,直接比编辑距离也未尝不可。
以上纯脑补,各位大哥大姐手下留情。
正好接触过这方面的东西. 这个问题属于Record linkage范畴. 可以参考一下Stanford Entity Resolution Framework. 这里有个文档比较好, 可以看看.