有没有办法在 PySpark 中 OCR 图像?

发布于 2025-01-09 01:50:30 字数 158 浏览 1 评论 0原文

我在 PySpark 中找不到 OCRing 图像的开源解决方案。我知道像 pytesseract 这样的解决方案存在,但不确定它们是否能与 PySpark 很好地配合,因为 tesseract-ocr 需要安装在 Linux 机器上。是否有任何开源 OCR 解决方案可以与 PySpark 完美配合?

I can not find an open source solution for OCRing images in PySpark. I know solutions like pytesseract exist, but not sure if they will play nicely with PySpark since the tesseract-ocr will need to be installed in the linux machines. Are there any open source OCR solutions that would play nicely with PySpark?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

錯遇了你 2025-01-16 01:50:30

我找不到纯Python库。 pytesseract 调用一个名为 tesseract-ocr 的 Linux 库,我可以将其安装在 Spark 集群上。您还可以相当轻松地将其安装在 Spark 集群上,并且运行良好。

这是有关如何在 Databricks 上安装它的答案。我使用全局初始化脚本来安装它:

如何在 Databricks 上安装 Tesseract OCR

I could not find a pure python library. pytesseract calls a linux library called tesseract-ocr which I was able to install on a Spark cluster. You can also install this on your Spark cluster fairly easily and it works well.

Here's an answer on how to install it on Databricks. I used global init scripts to install it:

How to install Tesseract OCR on Databricks

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文