数据挖掘中,如何处理多值的属性?
在DBLP数据集中查找最常合著的作者。因为一篇论文中有多个作者(最多可能有上百个),而整个数据集中可能有上万个作者。
现在只需提取每条记录中的作者信息,但很多文章都是多个作者,该怎么把这些作者处理成weka能够识别的arff格式中的数据呢?
如果将其定义为String类型,使用逗号来分隔,weka会报错(因为我只需作者这一个属性),而同一个属性的值中不能出现逗号。若使用别的符号来分隔(如“--”或“*”),weka也不能自动识别这些符号,会把多个作者当成一个属性值来处理。
该怎么处理成合理的格式呢?谢谢大家指教
不能按标称属性来处理
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
为何要用weka来解决一个统计问题?
你把数据处理一下,一条sql就可以解决了。一个表,两个字段(论文 作者)