如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

发布于 2024-12-25 19:18:03 字数 144 浏览 1 评论 0原文

我有一个包含数据向量的文件，其中每行包含一个以逗号分隔的值列表。我想知道如何使用 mahout 对这些数据执行 k 均值聚类。 wiki 中提供的示例提到了创建sequenceFiles，但除此之外，我不确定是否需要进行某种类型的转换才能获取这些sequenceFiles。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

天暗了我发光 2025-01-01 19:18:03

我建议手动读取 CSV 文件中的条目，从中创建 NamedVector，然后使用序列文件编写器将向量写入序列文件中。从那时起，KMeansDriver run 方法应该知道如何处理这些文件。

序列文件对键值对进行编码，因此键是样本的 ID（应该是字符串），值是向量的 VectorWritable 包装器。

以下是有关如何执行此操作的简单代码示例：

    List<NamedVector> vector = new LinkedList<NamedVector>();
    NamedVector v1;
    v1 = new NamedVector(new DenseVector(new double[] {0.1, 0.2, 0.5}), "Item number one");
    vector.add(v1);

    Configuration config = new Configuration();
    FileSystem fs = FileSystem.get(config);

    Path path = new Path("datasamples/data");

    //write a SequenceFile form a Vector
    SequenceFile.Writer writer = new SequenceFile.Writer(fs, config, path, Text.class, VectorWritable.class);
    VectorWritable vec = new VectorWritable();
    for(NamedVector v:vector){
        vec.set(v);
        writer.append(new Text(v.getName()), v);
    }
    writer.close();

另外，我建议阅读Mahout in Action的第8章。它提供了有关 Mahout 中数据表示的更多详细信息。

I would recommend manually reading in the entries from the CSV file, creating NamedVectors from them, and then using a sequence file writer to write the vectors in a sequence file. From there on, the KMeansDriver run method should know how to handle these files.

Sequence files encode key-value pairs, so the key would be an ID of the sample (it should be a string), and the value is a VectorWritable wrapper around the vectors.

Here is a simple code sample on how to do this:

    List<NamedVector> vector = new LinkedList<NamedVector>();
    NamedVector v1;
    v1 = new NamedVector(new DenseVector(new double[] {0.1, 0.2, 0.5}), "Item number one");
    vector.add(v1);

    Configuration config = new Configuration();
    FileSystem fs = FileSystem.get(config);

    Path path = new Path("datasamples/data");

    //write a SequenceFile form a Vector
    SequenceFile.Writer writer = new SequenceFile.Writer(fs, config, path, Text.class, VectorWritable.class);
    VectorWritable vec = new VectorWritable();
    for(NamedVector v:vector){
        vec.set(v);
        writer.append(new Text(v.getName()), v);
    }
    writer.close();

Also, I would recommend reading chapter 8 of Mahout in Action. It gives more details on data representation in Mahout.

回复收藏 0 原文