T-SNE以进行更好的数据可视化
我的数据集形状是(248857,11)
这就是StandartScaler之前的样子。我进行了聚类分析,因为这些聚类算法(例如K-均值)确实需要特征缩放,然后才能将其馈送到ALGO。
我用三个簇进行了K-Means,并试图找到一种显示这些簇的方法。 我找到了T-SNE作为解决方案,但我被卡住了。 这就是我的实现方式:
# save the clusters into a variable l.
l = df_scale['clusters']
d = df_scale.drop("clusters", axis = 1)
standardized_data = StandardScaler().fit_transform(d)
# TSNE Picking the top 100000points as TSNE
data_points = standardized_data[0:100000, :]
labels_80 = l[0:100000]
model = TSNE(n_components = 2, random_state = 0)
tsne_data = model.fit_transform(data_points)
# creating a new data frame which help us in ploting the result data
tsne_data = np.vstack((tsne_data.T, labels_80)).T
tsne_df = pd.DataFrame(data = tsne_data,
columns =("Dimension1", "Dimension2", "Clusters"))
# Ploting the result of tsne
sns.FacetGrid(tsne_df, hue ="Clusters", size = 6).map(
plt.scatter, 'Dimension1', 'Dimension2').add_legend()
plt.show()
如您所见,这不是很好。如何更好地想象这一点?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
看来您需要调整
困惑
超参数是:在这篇文章,更具体地说,。
It seems you need to tune the
perplexity
hyper-parameter which is:Read more about it in this post and more specifically, here.