商品匹配算法

发布于 2022-08-29 23:41:03 字数 734 浏览 12 评论 0

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

勿忘初心 2022-09-05 23:41:03

虽然没做过 但是以我很水的想法 大概是这样的
首先,我们保证几个前提:
(1)没人会在乎那种特别商品的比价,比如你不会在意在5173上买张点卡是比淘宝上便宜还是贵,换句话说越是热门商品,比如服装、电器越惹人关注
(2)电商网站,热门的就那么几个,这使得我们可以针对每个网站做特殊的抓取和处理
(3)考虑到seo,一个商品在一段时间内会被静态化为一个页面,这样只要拿到url就不需要分析他是什么商品(云的功劳~服务器存所有数据)
(4)你的工程师能力足够写出爬虫抓取所有的数据并分析出关键字段,这个就不讲了

说这么多废话,你认为真的可以通过比较页面来筛选同样的商品么,当然不能,但是有一些特征可以用:

(1)标题,最重要的,里面有商品名称和型号,当然你得写出一些算法来去掉宣传的语句,比如惊爆价,之类
(2)对于图书其实更简单,去找ISBN就是了,境内合法出版的图书只要比这个就行了

接下来就是对标题的一些处理,通过分词、命名实体识别,拿到商品型号之类,最后和页面URL关联起来就完了,当然,如果你认为标题的内容足够纯净,直接比编辑距离也未尝不可。

以上纯脑补,各位大哥大姐手下留情。

望喜 2022-09-05 23:41:03

正好接触过这方面的东西. 这个问题属于Record linkage范畴. 可以参考一下Stanford Entity Resolution Framework. 这里有个文档比较好, 可以看看.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文