Mahout - 朴素贝叶斯
我尝试使用 mahout 部署 20 个新闻组示例,看起来工作正常。出于好奇,我想深入研究模型统计数据, 例如: bayes-model 目录包含以下子目录, trainer…
Mahout 中朴素贝叶斯分类器对网站分类的适用性
我目前正在开发一个项目,需要一个对网站进行分类的数据库(例如 cnn.com = 新闻)。我们只需要广泛的分类 - 我们不需要对每个 URL 进行单独分类。我…
Apache Mahout +欧几里德距离:意外的结果
我使用 Mahout 的 EuclideanDistanceSimilarity 类对给定以下用户偏好数据集的多个用户的相似度进行排名。当前首选项的范围是从 1 到 5(含 1 和 5)…
Apache Mahout +皮尔逊相关性忽略了对每个项目具有相同偏好的用户
我使用 Mahout 和 Pearson 相关算法来根据用户对多个项目的偏好来比较和查找相似的用户。我遇到的问题是 Mahout 和/或 Pearson 忽略了为每个项目选择…
Mahout 的数据模型与 GenericDataModel
我正在使用 Mahout 的推荐引擎,并且在使用 genericdatamodel 对象时遇到了问题。我的问题是,如果我想将一些新用户数据添加到现有数据模型中,唯一的…
使用免费工具进行实体提取/识别,同时提供 Lucene 索引
我目前正在研究从文本(许多文章来自网络)中提取人名、位置、技术单词和类别的选项,然后将其输入到 Lucene/ElasticSearch 索引中。然后附加信息作为…
对大量字符串进行文本挖掘
我有字符串列表。 (相当大的 id 和字符串列表,分散在 4-5 个大文件中。每个文件大约 1 GB)。这些字符串的格式如下: 1,Hi 2,Hi How ru? 2、怎么样…
Mahout LDA 给出 FileNotFound 异常
我按照这里所述创建了我的术语向量: ~/Scripts/Mahout/trunk/bin/mahout seqdirectory --input /home/ben/Scripts/eipi/files --output /home/ben/Sc…
使用 Clojure 通过 Mahout 进行聚类 (fkmeans)
我正在尝试编写一个简短的脚本来通过 clojure 集群我的数据(尽管调用 Mahout 类)。我的输入数据采用这种格式(这是 php 的输出script) format: (ta…
Mahout rescorer 实施
我想通过它们共享的 Corating 数量除以 50 来对两个项目之间的所有 PearsonItemSimilarity 值进行加权。 或者换句话说,相应地更新两个项目(例如项目…
建议将 R 与 SimpleDB 或 BigQuery 结合使用,或将 PHP 与 SimpleDB 结合使用
我目前正在开发生成产品推荐的系统,例如 Amazon 上的产品推荐:“买了这个的人也买了这个..” 当前场景: 提取客户的 Google Analytics 数据并将其插…