在目录中读取所有.pdf文件；将可填充的田地提取到熊猫DF

发布于 2025-01-23 07:31:14 字数 993 浏览 0 评论 0原文

我正在编写一个脚本，该脚本读取一个.pdf的文件夹，并将其填充字段提取到熊猫DF。我成功地提取了一个.pdf，其中包括以下代码：

import numpy as np
import pandas as pd
import PyPDF2
import glob, os

pwd = os.getcwd()

pdfFileObj = open('pdf_filename', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

fields_dict = pdfReader.getFormTextFields()
series = pd.Series(fields_dict).to_frame()
df = pd.DataFrame(pd.Series(fields_dict)).T

我想构建一个为目录中所有PDF运行此脚本的函数。我的第一个想法是在Glob中使用收集所有PDF的函数。这是我到目前为止所拥有的：


import numpy as np
import pandas as pd
import PyPDF2
import glob, os

pwd = os.getcwd()

def readfiles():
   os.chdir(pwd)
   pdfs = []
   for file in glob.glob("*.pdf"):
       print(file)
       pdfs.append(file)

pdfFileObj = open(readfiles, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

fields_dict = pdfReader.getFormTextFields()
series = pd.Series(fields_dict).to_frame()
df = pd.DataFrame(pd.Series(fields_dict)).T

不幸的是，这是不起作用的，因为我不能在pdffilereader中添加功能。有人对这样做有更好的建议吗？谢谢！

原文

I have am writing a script that reads a folder of .pdfs and extracts their fillable fields to a pandas df. I had success extracting one .pdf with the following code:

import numpy as np
import pandas as pd
import PyPDF2
import glob, os

pwd = os.getcwd()

pdfFileObj = open('pdf_filename', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

fields_dict = pdfReader.getFormTextFields()
series = pd.Series(fields_dict).to_frame()
df = pd.DataFrame(pd.Series(fields_dict)).T

I want to build a function that runs this script for all pdfs in the directory. My first idea was to use a function in glob that collects all pdfs. Here is what I have so far:


import numpy as np
import pandas as pd
import PyPDF2
import glob, os

pwd = os.getcwd()

def readfiles():
   os.chdir(pwd)
   pdfs = []
   for file in glob.glob("*.pdf"):
       print(file)
       pdfs.append(file)

pdfFileObj = open(readfiles, 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

fields_dict = pdfReader.getFormTextFields()
series = pd.Series(fields_dict).to_frame()
df = pd.DataFrame(pd.Series(fields_dict)).T

Unfortunately, this doesn't work because I cannot put a function in the pdfFileReader. Does anyone have suggestions on a better way to do this? Thanks!

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

伪心 2025-01-30 07:31:14

我无法发表评论，新帐户。但是您可以尝试使您的readFiles函数返回阵列PDF。

然后，在下面的代码执行中：

listofPDF=readfiles()
arrayofDF=list()
for file in listofPDF:
       pdfFileObj = open(file , 'rb')
       pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
       ##execute your code to obtain a single dataframe from a pdf here
       fields_dict = pdfReader.getFormTextFields()
       series = pd.Series(fields_dict).to_frame()
       df = pd.DataFrame(pd.Series(fields_dict)).T
       arrayofDF.append(df)

您最终将拥有一个数据范围列表，每个列表与PDF文件之一相对应，如果代码的第一部分（其中您可以从单数PDF文件中获取数据框）。

此外，您可以制作一个字典，例如{fileName：file，dataframe：df}，然后将其附加到列表中，以便稍后可以基于文件名称的数据框架。这完全取决于您稍后打算使用数据范围的工作。

I can't comment, new account. But you could try making your readFiles function return the array pdfs.

Then in code execution below just:

listofPDF=readfiles()
arrayofDF=list()
for file in listofPDF:
       pdfFileObj = open(file , 'rb')
       pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
       ##execute your code to obtain a single dataframe from a pdf here
       fields_dict = pdfReader.getFormTextFields()
       series = pd.Series(fields_dict).to_frame()
       df = pd.DataFrame(pd.Series(fields_dict)).T
       arrayofDF.append(df)

You would end up having a list of dataframes, each one corresponding to one of the pdf files, if the first part of the code ( in which you get the dataframe from the singular pdf file) works.

Additionally, you could make a dictionary like {filename:file , dataframe: df} and then append that to your list, so you can later recover the dataframe based of the name of the file. It all depends on what you plan to do with the dataframes later.

回复收藏 0 原文

~没有更多了~