使用 wget 仅以纯 xhtml 格式下载 dokuwiki 页面
我目前正在修改offline-dokuwiki[1] shell 脚本,以获取应用程序的最新文档,以便自动嵌入到该应用程序的实例中。这工作得很好,除了在当前的形式下,它获取每个页面的三个版本:
- 包括页眉和页脚的完整页面
- 仅不含页眉和页脚的内容
- 我实际上只对原始 wiki 语法
感兴趣 2. 这是从主页由 中的 html
标记组成,如下所示:
<link rel="alternate" type="text/html" title="Plain HTML"
href="/dokuwiki/doku.php?do=export_xhtml&id=documentation:index" />
并且与主要 wiki 页面的 url 相同,只是它们包含查询字符串中的“do=export_xhtml”。有没有办法指示 wget 仅下载这些版本或自动将“&do=export_xhtml”添加到其后面的任何链接的末尾?如果是这样,这将是一个很大的帮助。
[1] http://www.dokuwiki.org/tips:offline-dokuwiki.sh< /a> (作者:samlt)
I'm currently modifying the offline-dokuwiki[1] shell script to get the latest documentation for an application for automatically embedding within instances of that application. This works quite well except in its current form it grabs three versions of each page:
- The full page including header and footer
- Just the content without header and footer
- The raw wiki syntax
I'm only actually interested in 2. This is linked to from the main pages by a html <link>
tag in the <head>
, like so:
<link rel="alternate" type="text/html" title="Plain HTML"
href="/dokuwiki/doku.php?do=export_xhtml&id=documentation:index" />
and is the same url as the main wiki pages only they contain 'do=export_xhtml' in the querystring. Is there a way of instructing wget to only download these versions or to automatically add '&do=export_xhtml' to the end of any links it follows? If so this would be a great help.
[1] http://www.dokuwiki.org/tips:offline-dokuwiki.sh (author: samlt)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
DokuWiki 也接受 do 参数作为 HTTP 标头。您可以使用参数 --header "X-DokuWiki-Do: export_xhtml" 运行 wget
DokuWiki accepts the do parameter as HTTP header as well. You could run wget with the parameter --header "X-DokuWiki-Do: export_xhtml"