将 wiki 转储解析为格式的适当方法是什么?
将 wiki 转储解析为包含自行生成的文章 id 和文章内容而仅包含其他内容的格式的最佳方法是什么?
文章 ID 将是参考 ID,内容将是纯文本,无 url,无参考。
What is the best way to parse a wiki dump into a format which contains a self generated article id and the article content and nothing else?
The article id will be a reference id and the content to be a plain text no url no references.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
http://en.wikipedia.org/wiki/Wikipedia:Database_download#Database_schema
看起来很清楚。
http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps
看起来很清楚。
http://www.mediawiki.org/wiki/Pywikipediabot
似乎是您想要的代码。
http://en.wikipedia.org/wiki/Wikipedia:Database_download#Database_schema
Seems very clear.
http://www.mediawiki.org/wiki/Manual:Importing_XML_dumps
Seems very clear.
http://www.mediawiki.org/wiki/Pywikipediabot
Seems to be the code you want.