如何将已有数据形式转换为可以供pyspark中KMeans训练的训练集?
现在可以获得的数据格式为:00016C4838CE FA1003 5 每个字段分别为user_id,menu_id,click_num
也就是用户id,菜单id和菜单对应的点击次数 以下截取了两个用户的数据
00016C4838CE FA1003 5
00016C4838CE FA1508 1
00016C4838CE FA2101 1
00016C4838CE GL0205 1
00016C4838CE GL0304 1
00016C4838CE reg 67
00031D091B1F FA2303 1
00031D091B1F GL0204 13
00031D091B1F GL0209 1
00031D091B1F GL0303 66
想要将这些数据使用kmeans进行从而将用户进行聚类,但是不知道数据如何处理转化为可以训练的训练集
我的思路:
我是想把数据转化成如下的矩阵
![图片描述][1]
想请教如何转化,或者更好的方案
注:不重复的菜单数一共有543种
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论