计算Pyspark中的相似性
我有一个csv
文件包含一些数据,我想选择带有输入的类似数据。 我的数据就像:
H1 | H2 | H3
--------+---------+----------
A | 1 | 7
B | 5 | 3
C | 7 | 2
我想在csv
中找到类似数据的数据点类似:[6,8]
。
实际上,我想找到数据集的H2
和H3
的行类似于输入,并且它返回h1
。
我想使用Pyspark和一些相似性度量,例如欧几里得距离,曼哈顿距离,余弦相似性或机器学习算法。
I have a csv
file contains some data, I want select the similar data with an input.
my data is like:
H1 | H2 | H3
--------+---------+----------
A | 1 | 7
B | 5 | 3
C | 7 | 2
And the data point that I want find data similar to that in my csv
is like : [6, 8]
.
Actually I want find rows that H2
and H3
of data set is similar to input, and It return H1
.
I want use pyspark and some similarity measure like Euclidean Distance, Manhattan Distance, Cosine Similarity or machine learning algorithm.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论