使用正则表达式将文本提取到列中

发布于 2025-01-11 07:46:24 字数 1064 浏览 0 评论 0原文

我想从附加的 PDF 文档中提取数据(S 号、商品代码、价格和尺寸)到列中。

重新编译适用于 S 号、项目代码和价格,但一旦我输入大小 - 它就会给出有限的输出。我不明白为什么?您能帮忙吗

(PDF页面的附图)

在此处输入图像描述

Import pandas as pd
Import re
Import PyPDF2

file = open("Petchem.pdf", "rb")
pdfReader = PyPDF2.PdfFileReader(file)

my_dict = {"S no":[], "Item Code":[], "Price":[], "Size":[]}

for page in range (1,25):
    pageObj = pdfReader.getPage(page)
    data = pageObj.extractText()

    size = re.compile(r'((\d{2,4}?)(\d{10})EA\s(\d?\d?,?\d?\d?\d.\d\d)[\s\w\d,:/.()-])')

    for number in size.findall(data):
        S_No = my_dict["S No"].append(number[1])
        Item_Code = my_dict["Item Code"].append(number[2])
        Price = my_dict["Price"].append(number[3])
        Size = my_dict["Size"].append(number[4]) 
        print(number[1])
        
a_file = open("Column_Breakup.csv", "w")
datadf = pd.DataFrame(my_dict)
datadf.to_csv("Column_Breakup.csv")
a_file.close()

I want to extract data (S no, Item Code, Price and Size) from the attached PDF Document in to columns.

The re.compile works for the S no, Item Code and Price, but as soon as I put the Size - it gives a limited output. I am unable to figure out why? Can you please help

(Attached picture of the PDF page)

enter image description here

Import pandas as pd
Import re
Import PyPDF2

file = open("Petchem.pdf", "rb")
pdfReader = PyPDF2.PdfFileReader(file)

my_dict = {"S no":[], "Item Code":[], "Price":[], "Size":[]}

for page in range (1,25):
    pageObj = pdfReader.getPage(page)
    data = pageObj.extractText()

    size = re.compile(r'((\d{2,4}?)(\d{10})EA\s(\d?\d?,?\d?\d?\d.\d\d)[\s\w\d,:/.()-])')

    for number in size.findall(data):
        S_No = my_dict["S No"].append(number[1])
        Item_Code = my_dict["Item Code"].append(number[2])
        Price = my_dict["Price"].append(number[3])
        Size = my_dict["Size"].append(number[4]) 
        print(number[1])
        
a_file = open("Column_Breakup.csv", "w")
datadf = pd.DataFrame(my_dict)
datadf.to_csv("Column_Breakup.csv")
a_file.close()

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文