使用 python 解析 pdf
我有一个 pdf 文件。它包含四列,所有页面都没有网格线。它们是学生的标记。
我想对这个分布进行一些分析(直方图、折线图等)。
我想将此 pdf 文件解析为电子表格或 HTML 文件(然后我可以很容易地解析)。
pdf 的链接是:
这是公开的文档,并且任何人都可以在该域上公开使用。
注意:我知道这可以通过将文件从 adobe reader 导出为文本,然后将其导入 Libre Calc 或 Excel 来完成。但我想使用 python 脚本来做到这一点。
请帮助我解决这个问题。 规格: 视窗7 Python 2.7
I have a pdf file. It contains of four columns and all the pages don't have grid lines. They are the marks of students.
I would like to run some analysis on this distribution.(histograms, line graphs etc).
I want to parse this pdf file into a Spreadsheet or an HTML file (which i can then parse very easily).
The link to the pdf is:
this is a public document and is available on this domain openly to anyone.
note: I know that this can be done by exporting the file to text from adobe reader and then import it into Libre Calc or Excel. But i want to do this using a python script.
Kindly help me with this issue.
specs:
Windows 7
Python 2.7
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用
PyPDF2
:当您打印
contents
时,它看起来像这样(我在这里修剪了它):Use
PyPDF2
:When you print
contents
, it will look like this (I have trimmed it here):