如何将 PDF 转换为文本文件并保留 PDF 的格式?
您好,我想将 PDF 文件转换为文本文件。我正在将 PDF 文件转换为文本文件。但它不保留 PDF 文件中完全相同的文本格式。
请帮我。
Hello I want to convert a PDF file to text file. I am converting the PDF file to text file. But it doesn't preserves the format of text which is exactly in PDF file.
Please help me.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(3)
文本文件本身不能包含格式。
您无法在纯文本文件中保留格式,因为它只包含文本。文本文件中可能有 HTML 标记,但我会将其称为 HTML 文件。否则,您应该尝试将其转换为富文本格式 (RTF)、Microsoft Word、OpenOffice 或某些其他文档类型。
A text file by itself cannot contain formatting.
You cannot preserve formatting in a plain text file because it only contains text. There could be HTML markup inside the text file, but then I would call this an HTML file. Otherwise, you should be trying to convert it into a rich text format (RTF), Microsoft Word, OpenOffice, or some other document type instead.
这可以帮助你。
This can help you.
PDFBox 将帮助您,它可能会丢失一些格式正如 Erick Robertson 所说,
请参阅 PDF 文本解析器:使用 PDFBox 将 PDF 转换为 Java 中的文本
PDFBox will help you for this it may loose some formatting as Erick Robertson said
refer PDF Text Parser: Converting PDF to Text in Java using PDFBox