当前位置：文江博客话题详情

Python web-scraping tabula-py tabulate

使用 tabula 从网页中的 pdf 中提取表格时出现问题（Python 中的网页抓取）

发布于 2025-01-16 19:04:00 字数 325 浏览 3 评论 0原文

当我从页面中提取表格时，我设法毫无问题地提取，但数据是乱序的。例如，一列中的数据显示为另一列的标题，我该如何解决此问题？我的代码：

from tabula import read_pdf

url='https://becas.osinergmin.gob.pe/seccion/centro_documental/hidrocarburos/SCOP/SCOP-DOCS/2022/01-Demanda-Nacional-Combustibles-Liquidos-Enero-2022.pdf'

df=read_pdf(url, pages=1)
df

提前致谢。

when I extract a table from a page, I manage to extract without problems, but the data is out of order. There is data from one column that appears as the title of another column for example, how can I fix this? My code:

from tabula import read_pdf

url='https://becas.osinergmin.gob.pe/seccion/centro_documental/hidrocarburos/SCOP/SCOP-DOCS/2022/01-Demanda-Nacional-Combustibles-Liquidos-Enero-2022.pdf'

df=read_pdf(url, pages=1)
df

Thanks in advance.

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

不如归去 2025-01-23 19:04:00

我找到了解决方案：使用 tabula 程序查找坐标。我们只需要上传程序： https://tabula.technology/ 并下载 JSON 文件即可查看坐标。我们需要按以下顺序将其放入 read_pdf 函数的“区域”参数中：顶部（y1）、左侧（x1）、底部（y2）和右侧（x2）距离。

现在我已经为具有相同坐标的所有 pdf 创建了一个循环，并且运行良好。

回复收藏 0 原文

~没有更多了~

关于作者

生活了然无味

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

闻呓

文章 0 评论 0

深府石板幽径

文章 0 评论 0

mabiao

文章 0 评论 0

枕花眠

文章 0 评论 0

qq_CrTt6n

文章 0 评论 0

红颜悴

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文