在 ASP.NET 中，将 PDF 文件转换为 HTML 的最佳方法是什么？

发布于 2024-07-09 14:29:35 字数 199 浏览 8 评论 0 原文

我的用户要做的就是在他们的计算机上选择一个 PDF 文档，将其上传到我的网站，我将在其中转换为 HTML 文档以在网站上显示。转换后的文档将存储在数据库中。

将 PDF 转换为 HTML 的最佳方法是什么？

我收到一个要求，用户将创建一个 pdf 格式的“新闻”故事，然后将其上传到服务器，在服务器上它将转换为 HTML 并显示在网站上。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

难忘№最初的完美 2024-07-16 14:29:36

任何可以将文档另存为 PDF 的文档创建软件都可以将其另存为 HTML。我假设问题是您的用户将创建丰富的文档（大量嵌入图像），这会产生多个文件，而您的要求源于希望使用户上传这些文档尽可能简单。

有许多转换包可能可以为您做到这一点，但是当您谈论丰富的内容时，您谈论的是文本加图像。这些图像必须存储在某处并以某种方式提供，无论您使用什么转换方法，都需要您检查所有图像源以确保它们指向服务器上的有效位置。

我想建议您的团队采用一种替代方法：实现用于发布内容的众多博客 API 之一。有一些免费和商业软件包使用这些 API 将内容直接发布到网站，例如 Windows Live Writer 和 Microsoft Word。您的用户可以简单地创建他们的内容并将其直接上传到您的网站，而无需先将其发布为 PDF，然后再上传。因此，这个过程对于您的用户来说变得更加顺利，并且您可以以不需要花费数千美元来开发或购买转换代码的形式获得帖子。

两个最常见的 API 是 MetaWeblog API 和可移动类型 API。两者都非常简单且易于实现。我认为这种方式比你正在考虑做的事情要好得多。

回复收藏 0 原文

音栖息无 2024-07-16 14:29:36

我认为将 PDF 转换为 HTML 字符串不一定是最好的主意，特别是如果您想将其导出为 PDF。 PDF 文件通常包含二进制元素（例如图像），因此您最好通过编码（例如 Base64）将其转换为 ASCII。这样您就可以将 ASCII 字符串保存到数据库中的文本字段中，然后将其转换回来。您能否对主要要求进行更多扩展？