c#itext7通过pdf文档中的文本循环

发布于 2025-01-23 02:44:53 字数 1084 浏览 0 评论 0原文

当前,我们将一堆PDF转换为XLSX,然后使用VBA刮擦它们以获取所需的数据。我总是很生气,因为我尝试以不同的方式转换所有文档的所有PDF转换器,这很烦人。因此,我有一个好主意,可以自己在C#中转换。

使用itext7,我可以使用下面的代码抓住所有文本并将其存储在字符串中,但是它并不是非常有用,因为我需要能够循环浏览并抓住所需的内容。

public static string pdfTextExtract(string path)
    {

        var pageText = new StringBuilder();
        using (PdfDocument pdfDocument = new PdfDocument(new PdfReader(path)))
        {
            var pageNumbers = pdfDocument.GetNumberOfPages();
            
            //var lineNumbers = pdfDocument.GetNumberOfPdfObjects();
            for (int i = 1; i <= pageNumbers; i++)
            {
                LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
                var page = pdfDocument.GetPage(i);
                pageText.Append( PdfTextExtractor.GetTextFromPage(page, strategy));
                parser.Reset();
            }
        }

        return pageText.ToString();

    }

希望有人可以帮助我弄清楚如何逐行循环穿越PDF,而不是抓住整个页面,或者我如何能很好地循环浏览字符串以获取名称和数字。

Currently we convert a bunch of pdf's to xlsx and then use vba to scrape through them for the data we need. I always get annoyed as all the pdf converters I've tried convert all documents differently which is rather annoying to deal with. So I had the bright idea to convert them myself in C#.

Using iText7 I can grab all the text and store it in a string using the code below but it's not extremely useful as I need to be able to loop through it and grab what I need.

public static string pdfTextExtract(string path)
    {

        var pageText = new StringBuilder();
        using (PdfDocument pdfDocument = new PdfDocument(new PdfReader(path)))
        {
            var pageNumbers = pdfDocument.GetNumberOfPages();
            
            //var lineNumbers = pdfDocument.GetNumberOfPdfObjects();
            for (int i = 1; i <= pageNumbers; i++)
            {
                LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
                var page = pdfDocument.GetPage(i);
                pageText.Append( PdfTextExtractor.GetTextFromPage(page, strategy));
                parser.Reset();
            }
        }

        return pageText.ToString();

    }

Hopefully someone can help me figure out how to loop through the pdf line by line rather than grabbing the whole page or how I can loop through the string nicely to grab names and figures.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

拿命拼未来 2025-01-30 02:44:53

PDF文件中的文本不一定以逻辑方式排序。
因此,提取的文本以意想不到的方式来自文本提取器。

locationTextextextracttrategy 类具有方法getResultantText,可以按拓扑顺序输出文本。

如果要逐行处理文本,可以使用此结果,或者构建自己的TextExtrateTrategy,从线或通过流来输出它们。

通过订购项目拓扑,甚至可以检测到表列并使用选项卡而不是空间将零件分开。

Text in pdf files is not necessarily ordered in a logical way.
So the extracted text comes out of the text extractor in unexpected ways.

The LocationTextExtractionStrategy class has a method getResultantText, that outputs the text in topological order.

If you want to process the text line by line, you can use this result, or build your own TextExtractionStrategy that outputs them line by line or through a stream.

By ordering the items topological it is even possible to detect tables columns and use a tab instead of a space to separate parts.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文