tf-idf

tf-idf

文章 0 浏览 7

如何将非常大的字典写入JSON文件?

请告诉我我在做什么错。我想从大量数据中创建一个字典。我有一个包含125,000个唯一单词的200,000篇文章的文件,看起来像这样: data = [[['article_1'…

尽揽少女心 2025-02-12 18:49:28 1 0

TFIDF向量进入LSTM模型

我正在尝试将我的TFIDF向量送入LSTM模型。 tfidfvectorizer(ngram_range =(1,2),use_idf = true,Analyzer ='Word',max_features = 5000) 这是…

猫烠⑼条掵仅有一顆心 2025-02-11 11:26:34 1 0

Quanteda:删除空文档以计算TFIDF,但将其保留在最终的DFM中

我正在尝试在数据集中计算带有许多空文档的数据集。我想在没有空文档的情况下计算TFIDF,但仍具有原始文档数量的DFM对象。 这是一个示例: texts = c(…

思慕 2025-02-03 09:10:13 4 0

保持使用TFIDF制作的模型,用于使用Scikit进行Python预测新内容

这是用TF-IDF制作的情绪分析模型用于特征提取 我想知道如何保存此模型并重用它。 我尝试以这种方式保存它,但是当我加载它时,请在测试文本上进行相同…

巡山小妖精 2025-02-02 02:57:04 4 0

tfidfvectorizer.transform()实际产生了什么?

我是使用 tf-idf vectorizer的新手。在运行代码时,我想出了此输出,但无法解释其实际含义。 代码 X=["Access modes govern the type of operations p…

相守太难 2025-01-30 10:18:53 3 0

在训练集中仅在一列上的tfidfvectorizer

关于TFIDFECTORIZER,我有一个问题。 我的问题是我有3列,一个是需要矢量化的文本,另外两个已经是数字,因此我只需要矢量化其中一个即可。 我已经读…

他不在意 2025-01-30 04:30:00 4 0

如何使用自定义索引标签访问PANDAS DataFrame中的一行?

我已经创建了一个pandas dataframe来保存这样的数据: TF_IDF = pd.DataFrame(index = vocab) TF_IDF['0'] = 0 其中 vocab 是一系列字符串,因此每列…

缪败 2025-01-30 03:33:09 2 0

TypeError:' lazycorpusloader' tfidfvectorizer中的对象是不可能的

我已经在这个问题上看到了一个单独的线程。但是我的错误是通过使用不同的步骤而产生的。所以重复的帖子 我正在使用Python 3.x。我需要使用文本包含复…

那支青花 2025-01-29 08:39:29 1 0

如何将矢量列表转换为numpy阵列以训练Python的分类器?

我有一个看起来像这样的熊猫数据框架: corpus tfidf labels 0 dfnkdfnkf asdfhedfh ajdladja [0.0, 0.0, 0.0, 0.01, 0.8] 60 1 dfnkdfnkf asdfhedfh …

土豪 2025-01-28 09:33:39 2 0

SCI-KIT TF-IDF-不确定TD-IDF数组的解释吗?

我有一个数据框的子集,例如: PageNumber Top_words_only 56 people sun flower festival 75 sunflower sun architecture red buses festival 我想在…

终止放荡 2025-01-27 21:31:45 2 0

pyspark中的角色级tfidf?

我有一个由10m行组成的数据集: >>> df name job company 0 Amanda Arroyo Herbalist Norton-Castillo 1 Victoria Brown Outdoor activities/educatio…

兮子 2025-01-24 20:41:11 3 0

我的数据中所有单词的Tfidf都等于0.0

我正在尝试计算数据中单词的所有 tf​​idf 分数,但在打印分数时,大多数数据等于 0.0。正常吗? import os, sys, re import pandas as pd import st…

平定天下 2025-01-20 00:23:11 2 0

scipy.sparse.csr.csr_matrix 的 max 和 argmax 的含义

我有这个 tf-idf 矩阵 type(dt) # output: scipy.sparse.csr.csr_matrix pd.DataFrame(dt.toarray()) # output: 0 1 2 3 4 5 0 0.000000 0.000000 0.5…

野の 2025-01-19 20:11:34 2 0

有效计算余弦相似性

我有一个大约 100k 字符串的银行,当我得到一个新字符串时,我想将它与最相似的字符串匹配。 我的想法是使用 tf-idf (这是有道理的,因为关键字非常…

人│生佛魔见 2025-01-19 11:52:28 2 0

版本之间的索引/搜索算法稳定性

我正在从Elasticsearch 1.5 迁移到 7.10 有多个必需的更改,最相关的更改是删除版本6中的文档类型概念,以处理它引入了一个新的字段 doc_type ,然后…

南街女流氓 2025-01-19 09:38:14 2 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文