为 Spark 数据框中的所有列值生成稀疏向量
column1 | column2 |
---|---|
1 | 1 |
1 | 0 |
1 | 0 |
0 | 0 |
现在我想计算column1和column2中所有值的哈希或稀疏向量
column1 | column2 |
---|---|
1 | 1 |
1 | 0 |
1 | 0 |
0 | 0 |
Now I want to calculate the hash or sparse vector of all the values in column1 and column2
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以使用 <代码>VectorAssembler。它默认创建
SparseVector
。You can use
VectorAssembler
. It createsSparseVector
by default.