如何将 PDF 转换为文本文件并保留 PDF 的格式?

发布于 2024-12-24 18:40:54 字数 83 浏览 2 评论 0原文

您好,我想将 PDF 文件转换为文本文件。我正在将 PDF 文件转换为文本文件。但它不保留 PDF 文件中完全相同的文本格式。

请帮我。

Hello I want to convert a PDF file to text file. I am converting the PDF file to text file. But it doesn't preserves the format of text which is exactly in PDF file.

Please help me.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

胡渣熟男 2024-12-31 18:40:54

文本文件本身不能包含格式。

您无法在纯文本文件中保留格式,因为它只包含文本。文本文件中可能有 HTML 标记,但我会将其称为 HTML 文件。否则,您应该尝试将其转换为富文本格式 (RTF)、Microsoft Word、OpenOffice 或某些其他文档类型。

A text file by itself cannot contain formatting.

You cannot preserve formatting in a plain text file because it only contains text. There could be HTML markup inside the text file, but then I would call this an HTML file. Otherwise, you should be trying to convert it into a rich text format (RTF), Microsoft Word, OpenOffice, or some other document type instead.

荒芜了季节 2024-12-31 18:40:54

这可以帮助你。

File f = new File(fileName);
        if (!f.isFile()) {  
            return null;  
        } 


        try {
            parser = new PDFParser(new FileInputStream(f));
        } catch (Exception e) {
            return null;
        }  

        try {
            parser.parse();
            cosDoc = parser.getDocument();  
            pdfStripper = new PDFTextStripper();
           /* pdfStripper.setStartPage(2); 
            pdfStripper.setEndPage(3);*/  
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
        } catch (Exception e) {  
            System.out.println("An exception occured in parsing the PDF Document.");  
            e.printStackTrace();  
            try {  
                   if (cosDoc != null) cosDoc.close();  
                   if (pdDoc != null) pdDoc.close();  
               } catch (Exception e1) {  
               e.printStackTrace();  
            }  
            return null;  
        }

This can help you.

File f = new File(fileName);
        if (!f.isFile()) {  
            return null;  
        } 


        try {
            parser = new PDFParser(new FileInputStream(f));
        } catch (Exception e) {
            return null;
        }  

        try {
            parser.parse();
            cosDoc = parser.getDocument();  
            pdfStripper = new PDFTextStripper();
           /* pdfStripper.setStartPage(2); 
            pdfStripper.setEndPage(3);*/  
            pdDoc = new PDDocument(cosDoc);
            parsedText = pdfStripper.getText(pdDoc);
        } catch (Exception e) {  
            System.out.println("An exception occured in parsing the PDF Document.");  
            e.printStackTrace();  
            try {  
                   if (cosDoc != null) cosDoc.close();  
                   if (pdDoc != null) pdDoc.close();  
               } catch (Exception e1) {  
               e.printStackTrace();  
            }  
            return null;  
        }
夏の忆 2024-12-31 18:40:54

PDFBox 将帮助您,它可能会丢失一些格式正如 Erick Robertson 所说

请参阅 PDF 文本解析器:使用 PDFBox 将 PDF 转换为 Java 中的文本

PDFBox will help you for this it may loose some formatting as Erick Robertson said

refer PDF Text Parser: Converting PDF to Text in Java using PDFBox

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文