数据挖掘的预处理步骤，怎么把xml文件转换成csv文件？

发布于 2021-11-18 15:37:52 字数 247 浏览 434 评论 11

我们在学数据挖掘，有个实验是从DBLP上的一个数据集来查找最常合著的作者。这个数据集是xml格式的，但是weka不能识别这个格式，而且这个xml文件很大，有1.2G，超过100万条记录。该怎么把这个xml文件格式转换成weka能识别的csv格式呢？

可否通过java程序来读取这个xml文件，然后用java把它写成csv格式？或者是否可以直接写成arff格式呢？

但是这个xml文件很大，如果直接读入的话，可能会让机子卡死，该怎么办呢？

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

疾风者 2021-11-24 03:18:50

spring batch

回复收藏 0

风柔一江水 2021-11-24 03:18:49

你好，请问你重新编译过weka吗？

回复收藏 0

残花月 2021-11-24 03:18:49

spring batch

回复收藏 0

风柔一江水 2021-11-24 03:18:47

才处理1G 的文件，没多大。这种情况用 SAX 没问题，用 DOM 就要看机器内存够不够大了。

回复收藏 0

终止放荡 2021-11-24 03:18:47

你好，请问你重新编译过weka吗？

回复收藏 0

奈何桥上唱咆哮 2021-11-24 03:18:46

才处理1G 的文件，没多大。这种情况用 SAX 没问题，用 DOM 就要看机器内存够不够大了。

回复收藏 0

不乱于心 2021-11-24 03:18:39

请问数据格式该怎么组织呢？对于DBLP数据集，我只要每条记录的作者，别的信息都不需要。但是很多记录有是多个作者合著，把它该写成什么格式才能让weka识别这是一条记录里的多个项啊？也就是说，怎么在csv文件里组织合著作者信息呢？

回复收藏 0

猫性小仙女 2021-11-24 02:59:44

建议用sax，java读取xml的库很多，直接用就行。第二个方案是直接解析xml文件，根据文件本身的特点进行字符串分析和处理。csv本身也是一种本地数据库格式，支持sql操作，你可以用第三方库进行操作，比如ado或支持csv的odbc驱动。

回复收藏 0

多彩岁月 2021-11-24 02:27:15

才处理1G 的文件，没多大。这种情况用 SAX 没问题，用 DOM 就要看机器内存够不够大了。

回复收藏 0

多彩岁月 2021-11-23 19:08:07

Java读XML有两种方式SAX和DOM，用SAX做流式处理读一条就输出一条，不要一次性全部load到内存再处理，不会有问题的。你用着两个当关键字搜索便知

回复收藏 0

疾风者 2021-11-19 23:23:13

Java读XML有两种方式SAX和DOM，用SAX做流式处理读一条就输出一条，不要一次性全部load到内存再处理，不会有问题的。你用着两个当关键字搜索便知

回复收藏 0

~没有更多了~

关于作者

英雄似剑

暂无简介

文章

678 人气

关注发私信

友情链接

文江博客

数据挖掘的预处理步骤，怎么把xml文件转换成csv文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接

数据挖掘的预处理步骤，怎么把xml文件转换成csv文件？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（11）

关于作者

相关话题

热门标签

推荐作者

忆悲凉

hgfg1645

qq_qLPLYi

戏舞

殊姿

﹂绝世的画

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。