维基百科:用于删除维基百科文本标记的 Java 库
我下载了维基百科转储,现在想要删除每个页面内容中的维基百科标记。我尝试编写正则表达式,但它们太多了,无法处理。我找到了一个 python 库,但我需要一个 java 库,因为我想集成到我的代码中。
谢谢。
I downloaded wikipedia dump and now want to remove the wikipedia markup in the contents of each page. I tried writing regular expressions but they are too many to handle. I found a python library but I need a java library because, I want to integrate into my code.
Thank you.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(5)
分两步完成:
以下演示:
产生:
这里: download.java.net/maven/2/net/java/textile-j/2.2 的 Web 存档链接
Do it in two steps:
The following demo:
produces:
Here: Web Archive link of download.java.net/maven/2/net/java/textile-j/2.2
如果您需要纯文本,您应该使用 WikiClean 库 https://github.com/lintool/wikiclean。
我遇到了同样的问题,看起来这是在 java 中对我有用的唯一有效的解决方案。
有两种用例:
1) 当您的文本不是 XML 格式时,您应该添加执行此处理所需的 xml 标签。假设您之前正在处理 XML 文件,现在您的内容没有 XML 结构,那么您只需添加 xmlStartTag 和 xmlEndTag(如下面的代码所示)即可处理它。
2)当您直接阅读维基百科转储文件(xml文件)时,在这种情况下,您只需将其传递给该文件即可。
If you need plain text you should use WikiClean library https://github.com/lintool/wikiclean.
I had the same problem and it looks like this was the only efficient solution that worked for me in java.
There are two usecases:
1) When you have the text not in XML format then you should add xml tags needed to do this processing. Supposing you are processing XML file earlier, and now you have the content without XML structure, then you just add xmlStartTag and xmlEndTag as in the code bellow, and it processes it.
2) When you are reading the Wikipedia dump file directly (xml file), in that case you just pass it through the file and it goes through.
Mylyn WikiText 可以将各种 Wiki 语法转换为 HTML 和其他格式。它还支持 Wikipedia 使用的 MediaWiki 语法。虽然 Mylyn WikiText 主要是一个 Eclipse 插件,但它也作为独立库提供。
Mylyn WikiText can convert various Wiki syntaxes into HTML and other formats. It also supports MediaWiki syntax, which is what Wikipedia uses. Although Mylyn WikiText is primarily an Eclipse plugin, it is also available as standalone library.
尝试使用 Mediawiki 文本转纯文本方法。您可能必须根据需要改进 PlainTextConverter 类。
结合将 Wikipedia 文本转换为 HTML 的示例,您可以嵌入模板内容。
Try the Mediawiki text to plain text approach. You probably have to improve the PlainTextConverter class for your needs.
Combined with the example for converting Wikipedia texts to HTML you can transclude template contents.
您可以使用 Jwiki 获取维基百科数据示例:
You can use Jwiki to get Wikipedia data Example :