收到此错误“页面图像的连接组件过多:”当在图像上使用 python 中的 Kraken 库时

发布于 2025-01-12 02:16:44 字数 647 浏览 0 评论 0原文

我正在尝试使用 tessaract 使用 OCR 阅读报纸。在将图像传递给 tessaract 之前,我使用 Kraken 来分割实际的线条并在句子中画一条线,以便 tessaract 进行正确检测。 当通过 kraken.pageseg.segment 传递图像时,我得到一个空列表,并且此输出 Too much Connected Components for a page image : 5903,相反,它应该返回一个包含图像坐标的列表句子周围的边界框。

我查阅了 kraken 的源代码并发现了这个特定的错误消息,但我无法理解它。 [错误源代码][1]

[1]: https://github.com/mittagessen/kraken/blob/master/kraken/pageseg.py#:~:text=connected%20components%20for%20a-,page,-image%3A%20%7Bccs% 7D%27)

I am trying to read a newspaper using OCR using tessaract. Before passing the image to tessaract, I am using Kraken to segment the actual lines and draw a line across the sentences for proper detection by tessaract.
When passing the image through kraken.pageseg.segment , I am getting an empty list and this output Too many connected components for a page image : 5903, instead it should have returned a list containg the coordinates of the bounding box around the sentences.

I looked up the source code of kraken and found this perticular error message, but I am unable to understand it.
[Source code for error][1]

[1]: https://github.com/mittagessen/kraken/blob/master/kraken/pageseg.py#:~:text=connected%20components%20for%20a-,page,-image%3A%20%7Bccs%7D%27)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

凉月流沐 2025-01-19 02:16:44

我遇到了同样的问题,并在查看 Kraken API 快速入门指南后解决了它。

尝试更改图像二值化。如果您使用 PIL (Pillow) 进行二值化,请使用 kraken 二值化方法,如下所示:

from PIL import Image
from kraken import binarization, pageseg

im = Image.open('foo.png')
bw_im = binarization.nlbin(im)
seg_data = pageseg.segment(bw_im)

参考:https:/ /kraken.re/master/api.html

I had the same problem and solved it after looking at the Kraken API quickstart guide.

Try changing your image binarization. If you were doing binarization with PIL (Pillow), use the kraken binarization method like this:

from PIL import Image
from kraken import binarization, pageseg

im = Image.open('foo.png')
bw_im = binarization.nlbin(im)
seg_data = pageseg.segment(bw_im)

Reference: https://kraken.re/master/api.html

尤怨 2025-01-19 02:16:44

尝试将包降级到版本“2.0.1”

    pip install kraken==2.0.1

我在更高版本中遇到了同样的问题,降级刚刚解决了它。

Try downgrading the package to version "2.0.1"

    pip install kraken==2.0.1

I had the same problem with higher versions and downgrading just solved it.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文