维基媒体页面到 Python 中的文本
我想将使用 API 提取的维基百科内容转换为纯文本。
有什么提示吗?
I would like to convert a wikipedia content extracted with API to plain text.
Any tip??
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
据说有一些 python mediawiki 标记解析器/渲染器,并且您几乎可以将 HTML 转换为您需要的样式的纯文本。但不知道这实际上效果如何。
There are supposedly some python mediawiki markup parsers/renderers, and you can pretty much convert from HTML into plaintext of the style you need. Don't know how well that would actually work, though.
我几天前做这个是为了克隆一个维基媒体网站
I made this a few days ago to clone a Wikimedia site