数据挖掘

数据挖掘

文章 108 浏览 72

nltk中对词性进行过滤,是不是特别消耗计算量?

目标:对文本进行预处理,需要抽取词性为名词、动词的词; 背景:现在有70k+个文本数据,单个文本含有300左右的单词; 问题:发现根据词性过滤,速度…

吾家有女初长成 2022-09-01 15:46:48 25 0

gensim中lsi模型如何存储?

训练模型lsi是什么类型的数据,如何存储,可以存成文本或数据库吗? lsi抽离出topics: 形如0.438“shipment”+0.366"truck"+0.345"fire"+0.149"deliv…

淡淡の花香 2022-09-01 12:46:03 15 0

分类器指定分出50个类,但实际上只分出5个类,什么原因造成?

样本:训练数据中有2000条数据,每条数据含有300-500个英文单词文本; 分类器:Topic-model 算法:LSI python库:NLTK+gensim 我想指定50个类,但实…

混浊又暗下来 2022-09-01 12:27:01 18 0

怎样才能通俗易懂地解释 EM 算法?

求通俗易懂的 EM 算法理解,有个模型例子来解释,我解释两遍了妹子还不是很懂的样子……急,在线等 …

深海少女心 2022-09-01 11:57:39 18 0

安装gensim出现问题?

我的版本是python2.7.9 Numpy:numpy-MKL-1.8.0.win-amd64-py2.7 scipy:scipy_0.14.0.win_amd64_py2.7 gensim:gensim-0.11.1-1.tar 安装过程没问题,…

梦境 2022-09-01 07:31:20 8 0

NLTK中名词词性是通过什么原理去判断的?

NN Noun, singular or mass 常用名词 单数形式 NNS Noun, plural 常用名词 复数形式 NNP Proper noun, singular 专有名词,单数形式 NNPS Proper nou…

jJeQQOZ5 2022-09-01 07:30:38 14 0

英文文本挖掘有没有开源代码?

挖掘对象:英文期刊的摘要。 现在有一些流行的,比如pymining、Orange,有没有一些对硬件性能要求比较低的开源软件? …

み格子的夏天 2022-09-01 05:44:17 26 0

请问在哪里能下到“文本情感分析”的标注好的数据?

我搜索到的最大的数据集就是亚马逊的评论数据了,但是这个只能做正负面 有没有包含更丰富的情感的开放数据呢? 谢谢 …

清风夜微凉 2022-08-31 09:17:15 13 0

字符串的模糊匹配

例如:山西和山西省,新疆和新疆维吾尔自治区,摩托罗拉和Moto,facebook和fb,等等,应该用什么算法呢? 只知道字符串的精确匹配和字符串最短编辑距…

春风十里 2022-08-30 00:07:12 20 0

怎么python检索Twitter搜索功能?

看社交网站的数据挖掘与分析,示例1-3 检索twitter搜索功能 import twitter as t twitter_search = t.Twitter(domain = "search.twitter.com") trend…

薔薇婲 2022-08-29 17:19:37 25 0

对于向量的jaccard距离该怎么计算?

M1,M2为向量,向量的jaccard相似度是 那么向量的jaccard距离会是1 - f(M1,M2)吗? 看维基百科Jaccard index好像说不是,但英文看不太懂意思。 …

谁对谁错谁最难过 2022-08-28 11:16:03 11 0

网站用户数据的疑问?

在网站中用户的各种行为是否应该记录,以便以后进行数据分析? 比如像用户浏览的页面记录等信息。 …

乖乖公主 2022-08-27 11:46:06 11 0

数据挖掘需要学习些什么?

数据挖掘需要学习些什么,有没有快速精通的技巧或方法? …

找回味觉 2022-08-26 18:17:49 11 0

如何理解皮尔逊相关系数(Pearson Correlation Coefficient)?

做相似度计算的时候经常会用到皮尔逊相关系数(Pearson Correlation Coefficient),那么应该如何理解该系数?其数学本质、含义是什么?相关公式:相…

没企图 2022-08-22 09:18:32 26 0

基于数据挖掘研究告警关联

我想问问,我的课题是告警关联,而相对比较好的方法应该是数据挖掘了,我改怎么进行,是直接用现成的挖掘工具还是有什么平台自己编程设计?…

最偏执的依靠 2021-11-30 15:38:45 668 0
更多

推荐作者

已经忘了多久

文章 0 评论 0

15867725375

文章 0 评论 0

LonelySnow

文章 0 评论 0

走过海棠暮

文章 0 评论 0

轻许诺言

文章 0 评论 0

信馬由缰

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文