tf-idf

投稿关注

文章 0 浏览 7

如何将非常大的字典写入JSON文件？

请告诉我我在做什么错。我想从大量数据中创建一个字典。我有一个包含125,000个唯一单词的200,000篇文章的文件，看起来像这样： data = [[['article_1'…

尽揽少女心 2025-02-12 18:49:28 1 0

TFIDF向量进入LSTM模型

我正在尝试将我的TFIDF向量送入LSTM模型。 tfidfvectorizer（ngram_range =（1,2），use_idf = true，Analyzer ='Word'，max_features = 5000）这是…

猫烠⑼条掵仅有一顆心 2025-02-11 11:26:34 1 0

Quanteda：删除空文档以计算TFIDF，但将其保留在最终的DFM中

我正在尝试在数据集中计算带有许多空文档的数据集。我想在没有空文档的情况下计算TFIDF，但仍具有原始文档数量的DFM对象。这是一个示例： texts = c(…

思慕 2025-02-03 09:10:13 4 0

保持使用TFIDF制作的模型，用于使用Scikit进行Python预测新内容

这是用TF-IDF制作的情绪分析模型用于特征提取我想知道如何保存此模型并重用它。我尝试以这种方式保存它，但是当我加载它时，请在测试文本上进行相同…

巡山小妖精 2025-02-02 02:57:04 4 0

tfidfvectorizer.transform（）实际产生了什么？

我是使用 tf-idf vectorizer的新手。在运行代码时，我想出了此输出，但无法解释其实际含义。代码 X=["Access modes govern the type of operations p…

相守太难 2025-01-30 10:18:53 3 0

在训练集中仅在一列上的tfidfvectorizer

关于TFIDFECTORIZER，我有一个问题。我的问题是我有3列，一个是需要矢量化的文本，另外两个已经是数字，因此我只需要矢量化其中一个即可。我已经读…

他不在意 2025-01-30 04:30:00 4 0

如何使用自定义索引标签访问PANDAS DataFrame中的一行？

我已经创建了一个pandas dataframe来保存这样的数据： TF_IDF = pd.DataFrame(index = vocab) TF_IDF['0'] = 0 其中 vocab 是一系列字符串，因此每列…

缪败 2025-01-30 03:33:09 2 0

TypeError：＆＃x27; lazycorpusloader＆＃x27; tfidfvectorizer中的对象是不可能的

我已经在这个问题上看到了一个单独的线程。但是我的错误是通过使用不同的步骤而产生的。所以重复的帖子我正在使用Python 3.x。我需要使用文本包含复…

那支青花 2025-01-29 08:39:29 1 0

如何将矢量列表转换为numpy阵列以训练Python的分类器？

我有一个看起来像这样的熊猫数据框架： corpus tfidf labels 0 dfnkdfnkf asdfhedfh ajdladja [0.0, 0.0, 0.0, 0.01, 0.8] 60 1 dfnkdfnkf asdfhedfh …

土豪 2025-01-28 09:33:39 2 0

SCI-KIT TF-IDF-不确定TD-IDF数组的解释吗？

我有一个数据框的子集，例如： PageNumber Top_words_only 56 people sun flower festival 75 sunflower sun architecture red buses festival 我想在…

终止放荡 2025-01-27 21:31:45 2 0

pyspark中的角色级tfidf？

我有一个由10m行组成的数据集： >>> df name job company 0 Amanda Arroyo Herbalist Norton-Castillo 1 Victoria Brown Outdoor activities/educatio…

兮子 2025-01-24 20:41:11 3 0

我的数据中所有单词的Tfidf都等于0.0

我正在尝试计算数据中单词的所有 tfidf 分数，但在打印分数时，大多数数据等于 0.0。正常吗？ import os, sys, re import pandas as pd import st…

平定天下 2025-01-20 00:23:11 2 0

scipy.sparse.csr.csr_matrix 的 max 和 argmax 的含义

我有这个 tf-idf 矩阵 type(dt) # output: scipy.sparse.csr.csr_matrix pd.DataFrame(dt.toarray()) # output: 0 1 2 3 4 5 0 0.000000 0.000000 0.5…

野の 2025-01-19 20:11:34 2 0

有效计算余弦相似性

我有一个大约 100k 字符串的银行，当我得到一个新字符串时，我想将它与最相似的字符串匹配。我的想法是使用 tf-idf （这是有道理的，因为关键字非常…

人│生佛魔见 2025-01-19 11:52:28 2 0

版本之间的索引/搜索算法稳定性

我正在从Elasticsearch 1.5 迁移到 7.10 有多个必需的更改，最相关的更改是删除版本6中的文档类型概念，以处理它引入了一个新的字段 doc_type ，然后…

南街女流氓 2025-01-19 09:38:14 2 0

共 4 页
1
2
3
4
下一页

友情链接

文江博客