解析 Wiki API 内容
我想检索从以下位置开始的主要内容:
L''''érythropoïétine''' ('''EPO''') est une [[hormone]] ......etc
我尝试开始 preg_replace 从顶部“{{Chimiebox...”到底部“}}”的所有内容使用这个
preg_replace( '/^{{(.*)}}$/sim', '', $value[0]['*'] );
但有点不起作用..有人知道确定内容开始的好方法吗?感谢您的任何建议。
I have this wiki from the API http://fr.wikipedia.org/w/api.php?action=query&titles=%C9rythropo%EF%E9tine&prop=revisions&rvprop=content&format=xmlfm
which I would like to retrieve the main content starting from:
L''''érythropoïétine''' ('''EPO''') est une [[hormone]] ......etc
I tried for a start to preg_replace everything from the top starting from the word "{{Chimiebox..." to the bottom "}}" using this
preg_replace( '/^{{(.*)}}$/sim', '', $value[0]['*'] );
But kind of doesn't work..does anyone know of a good way to determine the start of the content?? Thanks for any advice.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
嗯,据我所知,大多数项目直接使用维基百科解析器,例如 维基百科我大学的离线客户项目。由于您似乎正在使用 php,因此这对您来说可能是最简单的方法。
Well, afaik the most projects use the Wikipedia Parser directly, e.g. the Wikipedia Offline Client Project at my university. Since you seem to be using php, this may the be the easiest way for you.