文章来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

10.2 基于内容的过滤

发布于 2024-01-26 22:17:31 字数 947 浏览 0 评论 0 收藏 0

作为一个音乐家，Tim Westergren花了几年时间倾听其他有天赋的音乐家的作品，想知道为什么他们永远不能拔尖。他们的音乐很好，和你在电台收听到的那些一样好。然而，不知何故，他们从来没有大的突破。他想，一定是因为他们的音乐没有在足够的、合适的人们面前展示。

Tim最终退出了音乐家的工作，开始从事电影背景音乐的作曲。在那里，他开始思考每一块音乐自己独特的结构或DNA，并可以将其分解为不同的组成部分。

思考一番之后，他开始考虑围绕这个想法创建一家公司，建立一系列音乐的基因组。他的一位朋友曾经创建并出售了一家公司，Tim让他来运作这个想法。Tim的朋友喜欢他的想法，并开始帮助他写一个商业计划，并为该项目收集了首轮融资。行动开始了。

在接下来的几年里，他们雇用了一小群音乐家，对上百万首音乐细致地编写了几乎400个不同的特征，每个特征从0到5进行打分——所有都是通过手，或者说是通过耳朵进行的。每首3到4分钟长的歌曲需要几乎半小时的评级。

这些特征包括如此的参数：如领唱歌手的声音有多么的沉重，或节奏是每分钟多少拍。他们花费了近一年的时间完成了首个原型。它完全使用Excel中的VBA宏构建，花了差不多4分钟才返回一次推荐结果。但是，最后，它成功了，运作得非常好。

我们现在知道这家公司就是Pandora Music，你很可能已经听说过或使用过其产品，因为每天它有来自世界各地数百万的用户。毫无疑问，它是基于内容过滤的成功范例。

在基于内容的过滤中，不再将每首歌曲视为一个不可分割的单位，而是将它变成特征向量，然后就可以使用我们的老朋友余弦相似度进行比较。

不仅歌曲可以被分解成为特征向量，听众也可以被转化为特征向量。听众的品味描述成为了空间中的向量，使我们可以测量他们的品味描述和歌曲本身之间的相似程度。

对于Tim Westergren来说，这是神奇的，因为不像其他推荐引擎依赖于音乐的人气，这个系统的推荐是基于固有的结构相似性。也许有人从来没有听过歌曲X，但如果他们喜欢歌曲Y，那么他们应该喜欢歌曲X，因为这两首歌在基因上是几乎相同的。这就是基于内容的过滤。

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据