hadoop 中的 XML 处理
我的 hdfs 中有近 200 多个 xml 文件。我使用(mahout 的)XmlInputFormat 来流式传输元素。映射器能够获取 xml 内容并对其进行处理。但问题是只有第…
Mahout/Hadoop:SQL 到 SequenceFile
我开始使用 Mahout 进行集群,但我很难尝试将 sql(mysql) 转储转换为与 Mahout 兼容的 SequenceFile。我正在使用上面的代码。 SQL 示例 (1, 318145, '…
解释 mahout clusterdumper 的输出
我对爬行页面(超过 25K 文档;个人数据集)进行了聚类测试。 我已经完成了 clusterdump : $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir outpu…
如何解决产品推荐问题,例如:用户 __bought__ XXX 也 __viewed__ YYY
我目前正在学习推荐系统,学习了一些关于协同过滤、User CF、Item CF的知识,很明显使用这些算法来解决如下问题: 1) 用户购买了 XXX 也购买了 YYY 2…
确定 Mahout LDA 输出上的文档 ID
我已成功运行 mahout lda,并使用命令 mahout ldatopics 显示输出。 例如,我的主题是科学和体育。那么输出将是这样的: 主题 0 篮球, 玩, 棒球 主…
我的 boto elastic mapreduce jar 作业流程参数有什么问题?
我正在使用 boto 库在 Amazon Elastic MapReduce Webservice (EMR) 中创建作业流程。以下代码应创建一个步骤: step2 = JarStep(name='Find similiar …
是否值得购买 Mahout in Action 以加快使用 Mahout 的速度,或者是否还有其他更好的来源?
我目前是 Apache Mahout 的临时用户,我正在考虑购买这本书Mahout 在行动。不幸的是,我很难理解这本书的价值,因为它是一本 Manning Early Access Pr…
从 Apache Mahout LDA 包访问 LDA 参数
我刚刚测试了使用 Apache Mahout 在 30 个文档的语料库上构建潜在狄利克雷分配模型。我的系统上没有安装 Hadoop,这就是 Mahout 的本地执行产生结果模…
使用 Apache Mahout 对数据进行分类
我正在尝试解决一个简单的分类问题。 问题: 我有一组文本,我必须根据内容对它们进行分类。 使用 Mahout 的解决方案: 我知道我必须将输入转换为序列…
使用 Mahout 数学课创建矩阵时出现问题
我正在使用 Math MAhout 类 DoubleMatrix2d 创建一个 3x4 矩阵,我写了这样的内容来开始: package org.apache.mahout.math.matrix.impl; import org.…
如何使用hadoop安装执行mahout
我正在尝试弄清楚如何使用 hadoop 运行 mahout jar 示例。我配置了 mahout 和 hadoop,现在我进入 hadoop 目录并输入如下内容: /Users/hadoop/hadoop…