如何在weka中表示用于分类的文本?

发布于 2024-12-18 17:33:59 字数 104 浏览 1 评论 0原文

您能告诉我如何在 weka 中表示文本分类的属性或类吗?我可以使用什么属性进行分类?词频还是仅词? ARFF 格式的可能结构是什么?你能给我几行该结构的例子吗?

预先非常感谢您。

Can you please let me know how to represent attribute or class for text classification in weka. By using what attribute can I do classification? word frequency or just word? What would be possible structure of ARFF format? Can you give me several lines of example of that structure?

Thank you very much in advance.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

谁人与我共长歌 2024-12-25 17:33:59

最简单的替代方案之一是从 ARFF 文件开始解决两类问题,例如:

@relation corpus 

@attribute text string
@attribute class {pos,neg}

@data
'long text with words ... ',pos

文本表示为 String 类型,类是具有两个值的标称。

然后,您可以应用两个过滤器:

  1. StringToWordVector,将文本转换为词向量表示形式。过滤器对每个单词使用一个属性。您可以调整参数来选择二进制/频率表示、词干或停用词。最佳表示取决于问题。如果文本不长,通常二进制表示就足够了。
  2. 重新排序将类属性移动到最后一个位置,Weka 假设它就在那里。

您可以在此 Weka wiki 页面中找到更多信息和其他转换数据的方法:
http://weka.wikispaces.com/Text+categorization+with+WEKA

One of the easiest alternatives is to start with an ARFF file for a two class problem like:

@relation corpus 

@attribute text string
@attribute class {pos,neg}

@data
'long text with words ... ',pos

The text is represented as a String type and the class is a nominal with two values.

Then you could apply two filters:

  1. StringToWordVector that transforms the texts into a word vector representation. The filter uses an attribute for each word. You can tweak parameters to choose binary/frequency representation, stemming or stopwords. The best representation depends on the problem. If text are not long, usually binary representation is enough.
  2. Reorder to move the class atribute to the last position, Weka assumes it is there.

You may find more info and other approaches to transform your data in this Weka wiki page:
http://weka.wikispaces.com/Text+categorization+with+WEKA

等数载,海棠开 2024-12-25 17:33:59

在weka中,你可以选择自己的属性。在此示例中,我们只有 2 个类,所有唯一单词都用作属性。如果您选择词频作为属性,则如果该词在文本中出现两次,则分配“2”;如果没有出现,则分配“0”;如果该词只出现一次,则分配“1”。

以下是 .arff 格式示例。

@RELATION anyrelation

@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}

@DATA
1,2,....,0,class1
0,3,....,1,class2

In weka, you can choose your own attribute. In this example, we only have 2 classes and all of the unique words are used as attributes. If you choose word frequency as your attribute, then you assign '2' if that word occurs twice in your text, and '0' if not, or '1' if that word occurs only once.

Here is the example .arff format.

@RELATION anyrelation

@ATTRIBUTE word1
@ATTRIBUTE word2
...
@ATTRIBUTE wordn
@ATTRIBUTE class {class1, class2}

@DATA
1,2,....,0,class1
0,3,....,1,class2
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文