当前位置：文江博客话题详情

转换功能以增加相似性

发布于 2025-02-12 23:06:49 字数 356 浏览 1 评论 0原文

我有一个大的数据集（约有20,000个样本x 2,000个功能 - 每个样本，带有相应的y值），我正在为回归ML模型构建回归ML模型。输入向量是每个位置的BitVectors，其位置为1或0。

有趣的是，我注意到，当我“随机”选择n个样品时，使它们的y值在两个任意值A和B之间（因此BA远小于y中的总值范围），后续模型是很多更好地通过在模型训练中使用A - ＆gt; b范围来预测其他值。

然而，这些值的输入x矢量的总体相似性绝不比整个数据集中x值的任何随机选择都相似。

是否有一种可用的方法来转换输入X向量，使得具有更相似Y值的X向量是“更接近”的（我不是特别的方法，但它可能是余弦的相似性），而那些不相似的方法 - 值分开了吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦途 2025-02-19 23:06:49

经过更多的思考，我相信这个问题可以被重新构架为有监督的聚类问题。可能能够实现这一目标的方法可能很简单：


import umap 

print(df.shape)
>> (23,312, 2149)

print(len(target))
>> 23,312 

embedding = umap.UMAP().fit_transform(df, y=target)

After more thought, I believe this question can be re-framed as a supervised clustering problem. What might be able to accomplish this might be as simple as:


import umap 

print(df.shape)
>> (23,312, 2149)

print(len(target))
>> 23,312 

embedding = umap.UMAP().fit_transform(df, y=target)

回复收藏 0 原文

~没有更多了~

关于作者

戒ㄋ

暂无简介

文章

28 人气

关注发私信

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客

转换功能以增加相似性

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者