有没有办法在 PySpark 中 OCR 图像?
我在 PySpark 中找不到 OCRing 图像的开源解决方案。我知道像 pytesseract 这样的解决方案存在,但不确定它们是否能与 PySpark 很好地配合,因为 tesseract-ocr 需要安装在 Linux 机器上。是否有任何开源 OCR 解决方案可以与 PySpark 完美配合?
I can not find an open source solution for OCRing images in PySpark. I know solutions like pytesseract exist, but not sure if they will play nicely with PySpark since the tesseract-ocr will need to be installed in the linux machines. Are there any open source OCR solutions that would play nicely with PySpark?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我找不到纯Python库。 pytesseract 调用一个名为 tesseract-ocr 的 Linux 库,我可以将其安装在 Spark 集群上。您还可以相当轻松地将其安装在 Spark 集群上,并且运行良好。
这是有关如何在 Databricks 上安装它的答案。我使用全局初始化脚本来安装它:
如何在 Databricks 上安装 Tesseract OCR
I could not find a pure python library. pytesseract calls a linux library called tesseract-ocr which I was able to install on a Spark cluster. You can also install this on your Spark cluster fairly easily and it works well.
Here's an answer on how to install it on Databricks. I used global init scripts to install it:
How to install Tesseract OCR on Databricks