当前位置：文江博客话题详情

从大量PDF中提取信息

发布于 2022-09-11 22:02:14 字数 118 浏览 20 评论 0

有500+的PDF, 都是企业的年报, 要在这些PDF里边提取关于高管的简历信息。
高管的信息都是集中的, 300多页的PDF它大概占了20页这样, 但是每个公司的编排不太一样. 大部分有统一的标题, 但是有的没有.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

半夏半凉 2022-09-18 22:02:14

python有个pdfminer, nodejs有个pdf2json. 初步看来似乎pdfminer好用一些.
但是如何处理不同的可能的标题, 把所有可能性都列出来?
以及如何确定简历信息的文本范围呢?

回复收藏 0

~没有更多了~

关于作者

谜兔

暂无简介

文章

27 人气

关注发私信

微信用户

文章 0 评论 0

关注

小情绪

文章 0 评论 0

关注

追我者格杀勿论

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

笨死的猪

文章 0 评论 0

关注

彭明超

文章 0 评论 0

友情链接

文江博客

从大量PDF中提取信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

微信用户

小情绪

追我者格杀勿论

ゞ记忆︶ㄣ

笨死的猪

彭明超

友情链接

从大量PDF中提取信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

微信用户

小情绪

追我者格杀勿论

ゞ记忆︶ㄣ

笨死的猪

彭明超

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。