进行余弦相似度时如何忽略/屏蔽 nan 值
我有一个包含 nan 值的数组,例如:
a = np.array([[np.nan, 1, 5], [5,np.nan,np.nan]])
我是尝试计算余弦相似度(尝试使用 sklearn.metrics.pairwise.cosine_similarity ),但它当然不适用于 nan 值。
我尝试使用 b = np.ma.MaskedArray(a, mask = np.isnan(a)) 屏蔽数组,但这给出了相同的错误。有没有办法在忽略空值的同时计算余弦相似度,或者是否需要插补?
I have an array with nan values, for example:
a = np.array([[np.nan, 1, 5], [5,np.nan,np.nan]])
I am trying to calculate the cosine similarity (trying with sklearn.metrics.pairwise.cosine_similarity
) but it of course does not work with nan values.
I have tried masking the array with b = np.ma.MaskedArray(a, mask = np.isnan(a))
, but that gives the same error. Is there a way to calculate the cosine similarity while ignoring the null values, or is imputation necessary?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论