计算Pyspark中的相似性

发布于 2025-02-12 20:08:32 字数 410 浏览 1 评论 0原文

我有一个csv文件包含一些数据，我想选择带有输入的类似数据。我的数据就像：

H1      | H2      | H3
--------+---------+----------
A       | 1       | 7
B       | 5       | 3
C       | 7       | 2

我想在csv中找到类似数据的数据点类似：[6，8]。

实际上，我想找到数据集的H2和H3的行类似于输入，并且它返回h1。

我想使用Pyspark和一些相似性度量，例如欧几里得距离，曼哈顿距离，余弦相似性或机器学习算法。

I have a csv file contains some data, I want select the similar data with an input.
my data is like:

H1      | H2      | H3
--------+---------+----------
A       | 1       | 7
B       | 5       | 3
C       | 7       | 2

And the data point that I want find data similar to that in my csv is like : [6, 8].

Actually I want find rows that H2 and H3 of data set is similar to input, and It return H1.

I want use pyspark and some similarity measure like Euclidean Distance, Manhattan Distance, Cosine Similarity or machine learning algorithm.

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

暂无简介

文章

27 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0