当前位置：文江博客话题详情

Python ocr image-processing document-layout-analysis

使用python识别文本布局

发布于 2024-11-19 15:52:57 字数 255 浏览 4 评论 0原文

我正在尝试对数千个扫描文件进行排序，并根据类型将它们分类到文件夹中（即：如果其中一个文件是 formA 的扫描副本，那么它应该进入 formA 文件夹，如果它是 formB 的扫描副本，那么它应该进入 formB 文件夹等...）。我觉得匹配文件和类型的最佳方法是基于它们的文本轮廓，但我对图像处理完全陌生，所以如果有更好的解决方案，那么我会洗耳恭听。

我在 python 中工作。有什么最好的方法来做到这一点的想法吗？太尔？开放式CV？图像魔法？

提前致谢...

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

并安 2024-11-26 15:52:57

您可能对这个库感兴趣 -
http://code.google.com/p/ocropus/
它由 googlers 制作，可让您通过 python 进行 OCR 和布局分析。
我在安装它时遇到了一些麻烦，但那是很久以前的事了，所以现在事情可能已经解决了。

回复收藏 0 原文

俯瞰星空 2024-11-26 15:52:57

我不知道您扫描的文档是什么格式，但是 pdfminer 可以对pdf进行布局分析。我想它会符合你的目的，只要你得到的文档是相当不错的pdf格式（如果你只有“纯图像”，它不会对你有任何好处）

回复收藏 0 原文

~没有更多了~

关于作者

〆一缕阳光ご

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待＂谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文