如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集?

发布于 2022-09-11 18:59:36 字数 622 浏览 17 评论 0

现在可以获得的数据格式为:00016C4838CE   FA1003 5 每个字段分别为user_id,menu_id,click_num

也就是用户id菜单id和菜单对应的点击次数 以下截取了两个用户的数据
00016C4838CE FA1003 5
00016C4838CE FA1508 1
00016C4838CE FA2101 1
00016C4838CE GL0205 1
00016C4838CE GL0304 1
00016C4838CE reg 67
00031D091B1F FA2303 1
00031D091B1F GL0204 13
00031D091B1F GL0209 1
00031D091B1F GL0303 66
想要将这些数据使用kmeans进行从而将用户进行聚类,但是不知道数据如何处理转化为可以训练的训练集

我的思路:

我是想把数据转化成如下的矩阵
![图片描述][1]

想请教如何转化,或者更好的方案
注:不重复的菜单数一共有543种

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文