Apriori 算法:具有频繁 (k-1) 子集意味着频繁?
我一直盯着一本描述挖掘频繁项集的 Apriori 算法的书里的下面一行,我似乎无法理解它 请注意,给定一个候选 k-项集,我们只需要检查它是否 (k- 1)-子…
数据挖掘方面的 R 与 Matlab 比较
Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题?更新问题,以便可以通过编辑这篇文章用事实和…
作者独特的“文学风格”能否得以体现?用于识别他/她作为文本的作者?
Closed. This question needs to be more focused. It is not currently accepting answers. 想要改进这个问题?通过编辑这篇文章来更新问题,使其仅…
使用 PHP 在文本正文中查找 3-8 个单词的常用短语
我正在寻找一种使用 PHP 在文本正文中查找常用短语的方法。如果在 php 中不可能,我会对其他可以帮助我完成此任务的网络语言感兴趣。 内存或速度都不…
DLIB 是一个很好的开源库,可以用来用 C++ 开发我自己的机器学习算法吗?
DLIB 是一个很好的开源库,可以用来用 C++ 开发我自己的机器学习算法吗? 其他的怎么样,比如libSVM、SHOGUN?…
我如何“获得”将美国所有酒吧/俱乐部的数据存入数据库。叫喊 API?
我想做的是创建美国所有酒吧的数据库。我需要半定期(每周左右)更新此数据库以包含新开的酒吧。 yelp api 的问题是它们只会返回 20 个结果。我方圆 5…
用于以数据库表格格式计算频率的数据结构
我想知道是否有一种数据结构经过优化,可以针对以数据库表格式存储的数据计算频率。例如,数据采用下面的(逗号)分隔格式。 col1, col2, col3 x, a, …
MongoDB概念直接访问文件或访问导入的数据(访问RAW数据)
我想尝试使用 MongoDB 访问数百万行原始数据(多个不同的文件), 如果我使用 MySQL,我必须将这些原始数据导入/转换到 MySQL 表,这非常耗时。 我的…