当前位置：文江博客话题详情

如何使用Weka创建词袋？

发布于 2024-12-09 03:30:05 字数 218 浏览 3 评论 0原文

我有一个文档语料库，我想将每个文档表示为一个向量。基本上，对于文档中存在的单词，向量的值为 1，而对于其他单词（存在于语料库中的其他文档中，而不是这个特定文档中的单词），向量的值为 0。我如何为所有单词创建这个向量Weka 中的文档？

有没有一种快速的方法可以使用 Weka 来做到这一点？我还希望 Weka 在创建这个向量之前删除停用词以及如果可能的话进行一些预处理。

谢谢阿布舍克小号

需要登录才能够评论，你可以免费注册一个本站的账号。

南笙 2024-12-16 03:30:05

您需要 StringToWordVector 过滤器。

它具有二进制出现和停止的选项，以及许多其他选项，例如词干、截断单词列表、丢弃不常见的术语、大小写折叠。

~没有更多了~

暂无简介

文章

28 人气

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0

文章 0 评论 0