当 Lattice 设置为 True 时,Tabula py 不会读取每行交替颜色的 PDF 的所有行
我正在尝试从附加的PDF提取所有行。
这是我使用的代码:
def parse_latticepdf_pages(pdf):
pages = read_pdf(
pdf,
pages = "all",
guess = False,
lattice = True,
silent = True,
area = [43, 5, 568, 774],
pandas_options = {'header': None}
)
return pd.concat(pages)
parse_latticepdf_pages(pdf = "file.pdf")
输出仅显示灰色背景颜色的行。伊特不会显示白色背景颜色的行。无论行所含有什么颜色,我如何获得所有行?
注意:最初,我尝试使用 stream = true ,但这引起了其他问题,其中每行出现为单独的行,并且不可能根据需要将行分组。因此,我设置了lattice = true。同样,启用和不启用 protie_tables 返回相同的问题。
我将感谢任何帮助。谢谢你!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我最终设法解决了这个问题。对于这种特定的PDF格式,最好使用其他Python软件包,例如 pymupdf 。我在Stackoverflow的另一篇文章上发布了类似的问题。我在这里发布链接。希望这可以帮助其他人努力寻找与本文中提到的问题相似的问题的解决方案。
I managed to finally solve this. For this particular PDF format, it's better to use other python packages such as PyMuPDF. I had posted a similar question on another post in StackOverflow. I am posting the link here. Hope this helps others too struggling to find a solution to a problem similar to that mentioned in this post.
Data Wrangling of text extracted from PDF using PyMuPDF possible? (alternating colors for each row) - text positioned in the middle for each row
不确定发生了什么,但是确认它可与
protive_tables = false
选项一起使用,如下所示:它可能会导致
page =“ all”
的另一个问题。Not sure what's happening, but confirmed it works with
multiple_tables=False
option as the following:It might cause another issue for
page="all"
though.