10.2 基于内容的过滤
作为一个音乐家,Tim Westergren花了几年时间倾听其他有天赋的音乐家的作品,想知道为什么他们永远不能拔尖。他们的音乐很好,和你在电台收听到的那些一样好。然而,不知何故,他们从来没有大的突破。他想,一定是因为他们的音乐没有在足够的、合适的人们面前展示。
Tim最终退出了音乐家的工作,开始从事电影背景音乐的作曲。在那里,他开始思考每一块音乐自己独特的结构或DNA,并可以将其分解为不同的组成部分。
思考一番之后,他开始考虑围绕这个想法创建一家公司,建立一系列音乐的基因组。他的一位朋友曾经创建并出售了一家公司,Tim让他来运作这个想法。Tim的朋友喜欢他的想法,并开始帮助他写一个商业计划,并为该项目收集了首轮融资。行动开始了。
在接下来的几年里,他们雇用了一小群音乐家,对上百万首音乐细致地编写了几乎400个不同的特征,每个特征从0到5进行打分——所有都是通过手,或者说是通过耳朵进行的。每首3到4分钟长的歌曲需要几乎半小时的评级。
这些特征包括如此的参数:如领唱歌手的声音有多么的沉重,或节奏是每分钟多少拍。他们花费了近一年的时间完成了首个原型。它完全使用Excel中的VBA宏构建,花了差不多4分钟才返回一次推荐结果。但是,最后,它成功了,运作得非常好。
我们现在知道这家公司就是Pandora Music,你很可能已经听说过或使用过其产品,因为每天它有来自世界各地数百万的用户。毫无疑问,它是基于内容过滤的成功范例。
在基于内容的过滤中,不再将每首歌曲视为一个不可分割的单位,而是将它变成特征向量,然后就可以使用我们的老朋友余弦相似度进行比较。
不仅歌曲可以被分解成为特征向量,听众也可以被转化为特征向量。听众的品味描述成为了空间中的向量,使我们可以测量他们的品味描述和歌曲本身之间的相似程度。
对于Tim Westergren来说,这是神奇的,因为不像其他推荐引擎依赖于音乐的人气,这个系统的推荐是基于固有的结构相似性。也许有人从来没有听过歌曲X,但如果他们喜欢歌曲Y,那么他们应该喜欢歌曲X,因为这两首歌在基因上是几乎相同的。这就是基于内容的过滤。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论