将 SO 数据转储从 HTML 转换回 Markdown 的最简单方法是什么?

发布于 2024-08-02 00:55:47 字数 591 浏览 10 评论 0 原文

我刚刚拿到了 Stackoverflow 数据转储,对此我感到很失望帖子的正文字段采用 HTML 格式而不是 Markdown 格式。 我怀疑原始数据库中有 Markdown,因为如果我尝试编辑答案,我就会看到它。

我想从大量答案中恢复 Markdown。 我将使用命令行工具或某种 Lua 或 C 库以批处理模式处理数百个条目,因此使用像 wmd Markdown 编辑器 不适合。 人们能说 有哪些工具可以帮助我从 Stackoverflow 数据转储中恢复 Markdown?


(相关问题,不重复:在 wmd 中将 HTML 转换回 Markdown。)

I've just got my hands on a Stackoverflow data dump, and I'm disappointed to see that the Body field of the posts is in HTML rather than Markdown. I suspect there's Markdown in the original database because that's what I see if I try to edit an answer.

I want to recover Markdown from a large set of answers. I will be processing hundreds of entries in batch mode, using either command-line tools or some kind of Lua or C library, so an interactive tool like the wmd Markdown editor is not suitable. Can people say
what tools are available to help me recover Markdown from a Stackoverflow data dump?


(Related question, not a duplicate: Convert HTML back to Markdown within wmd.)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

春夜浅 2024-08-09 00:55:47

Markdownify 将 HTML 转换为 Markdown。

另请参阅: MetaSO / Markdown 可以从 SO 数据转储中恢复吗?

Markdownify converts HTML to Markdown.

See Also: MetaSO / Can Markdown be recovered from the SO data dump?

风渺 2024-08-09 00:55:47

看看 pandoc:http://johnmacfarlane.net/pandoc/

其中包含一个 html2markdown 工具pandoc 运行得很好,并且该程序是从命令行运行的,使得批量转换非常好。

这是手册页: http://johnmacfarlane.net/pandoc/html2markdown.1.html< /a>

take a look at pandoc:http://johnmacfarlane.net/pandoc/

there is an html2markdown tool included with pandoc that works pretty well, and the program is run from the command line, making batch conversion quite nice.

here is the man page: http://johnmacfarlane.net/pandoc/html2markdown.1.html

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文