为什么我的T-SNE图与欧几里得和余弦距离看起来相似
我对我制作的两个T-SNE地块有疑问。 我有一组850篇文章,我想检查哪些文章彼此相似。 这是通过首先对文章进行预处理,然后制作整个集合的TF-IDF向量并…
计算Pyspark中的相似性
我有一个 csv 文件包含一些数据,我想选择带有输入的类似数据。 我的数据就像: H1 | H2 | H3 --------+---------+---------- A | 1 | 7 B | 5 | 3 C …
使用BERT训练句子相似模型的参数?
我有一个句子列表: sentences = ["Missing Plate", "Plate not found"] 我试图通过使用 huggingface嵌入。我能够找到相似的句子,但是该模型仍然无法…
如何比较文本并选择SQLite中的类似句子?
我正在使用NLP来提取不同年份中SEC文件中包含某些关键字的句子。我通过sqlite将输出存储在sqlite中。到目前为止,一切都很好。 当我想比较两年的句子…
使用 Spacy 计算多个文档相似度的有效方法
我有大约 10k 文档(主要是 1-2 个句子),并且希望为每个文档找到 60k 文档集合中的 10 个最相似的文档。因此,我想使用spacy库。由于文档数量庞大,…
使用 python 或 SQL 根据相似的句子对行进行排名?
如何根据行值对数据框进行排名。即我有一行包含文本数据想要提供基于相似性的排名?下面是示例数据集,原始数据集包含大约 100000 条记录。请参考此问…
海量语料库的高效字符串相似度搜索
我正在 256 个字符长的字符串和由 9000 个条目组成的语料库(每个条目约 1000 个单词)之间进行相似性搜索。 我使用了 LocalitySensitiveHashing,请…
- 共 1 页
- 1