用于自然语言处理的 ARFF
我正在尝试获取一组评论,并将它们转换为 ARFF 格式以便与 WEKA 一起使用。不幸的是,要么我完全误解了格式的工作原理,要么我必须为所有可能的单词提供一个属性,然后是一个存在指示符。有谁知道更好的方法,或者最好有一个示例 ARFF 文件?
I'm trying to take a set of reviews, and convert them into the ARFF format for use with WEKA. Unfortunately either I completely misunderstand how the format works, or I'll have to have an attribute for ALL possible words, then a presence indicator. Does anyone know a better way, or ideally have a sample ARFF file?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果您将评论存储在纯文本文件和不同的文件夹中(在您的情况下是正面和负面的),则可以使用 TextDirectoryLoader。
您可以在 Weka 的 KnowledgeFlow 应用程序中或通过命令行找到它。更多信息请参见:http://weka.wikispaces.com/ARFF+files+from +文本+集合
If you store the reviews in plain text files and different folders (positive and negative in your case) you can use TextDirectoryLoader.
You find this in the KnowledgeFlow application in Weka or from the command line. More info here: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
花了一段时间才解决,但是使用这个 input.arff:
和这个命令:
生成以下内容:
Took a while to work out, but with this input.arff:
And this command:
The following is produced: