如何将pdf文档转换为html文件?
应保持格式,看起来与原始版本几乎相同。
Should remain format,looks almost the same as original.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
应保持格式,看起来与原始版本几乎相同。
Should remain format,looks almost the same as original.
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(1)
几个例子:
此页面讨论如何在 Ubuntu 中使用名为 pdftohtml 的软件进行转换。
此页面列出了可转换的共享软件(可能是 Windows) PDF 为各种 MS 格式,包括 htm。
我什至找到了几个视频(一个是 Google 视频,一个是 www.break.com 上的视频)。我没有看它们,因为我认为它们只是描述如何使用某些软件。
如果你想知道如何自己做的话,这些显然是不能令人满意的。
我认为 PDF 最初是一个压缩的“postscript”文件,但现在可能包含图像(例如,扫描文档的图像)。
如果是这种情况,不必费心寻找文本,您可以提取图像并创建 HTML 页面来显示图像。这至少应该使您能够保留格式。
至少,您可以截取 PDF 页面的屏幕来创建图像。我知道这很粗糙,但无论 PDF 是附言还是图像,它都可以。
A couple of examples:
This page discusses how to use software called pdftohtml to convert in Ubuntu.
This page lists shareware (probably Windows) which converts PDF to various MS formats, including htm.
I even found a couple of videos (a Google video and one on www.break.com). I didn't look at them because I think they'll just describe how to use some software.
These are obviously unsatisfactory if you want to know how to do it yourself.
I think PDF started out as a compressed 'postscript' file, but these days would probably contain images (of scanned documents, for example).
If that's the case, don't bother looking for text, you can extract the images and create HTML pages to display the images. This should at least enable you to preserve the formatting.
At the very least, you could screen-capture the PDF pages to create the images. Crude, I know, but it would work whether the PDF was postscript or images.