数据挖掘中,如何处理多值的属性?

发布于 2021-11-20 09:12:52 字数 374 浏览 840 评论 1

在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个),而整个数据集中可能有上万个作者。

现在只需提取每条记录中的作者信息,但很多文章都是多个作者,该怎么把这些作者处理成weka能够识别的arff格式中的数据呢?

如果将其定义为String类型,使用逗号来分隔,weka会报错(因为我只需作者这一个属性),而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”),weka也不能自动识别这些符号,会把多个作者当成一个属性值来处理。

该怎么处理成合理的格式呢?谢谢大家指教

不能按标称属性来处理

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

柠檬 2021-11-25 02:59:04

为何要用weka来解决一个统计问题?

你把数据处理一下,一条sql就可以解决了。一个表,两个字段(论文  作者)

 

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文