OCR-Engine Tesseract:如何对大量文件进行自动文本识别
我有大量要解析的文件。
它们看起来像这些:参见示例:
http:// /www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image
http://www.foundationfinder.ch/ShowDetails.php?Id =134&InterfaceLanguage=&Type=Html
嗯,我想使用 Image::OCR::Tesseract 可能会很有趣。我想我用 Tesseract 解析它( http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod )
use Image::OCR::Tesseract 'get_ocr';
my $image = './hi.jpg';
my $text = get_ocr($image);
这是正确的语法吗?
I have a large amount of files that I want to parse.
they look like these ones: See a example:
http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Image
http://www.foundationfinder.ch/ShowDetails.php?Id=134&InterfaceLanguage=&Type=Html
Well I guess that using Image::OCR::Tesseract could be interesting. I think I parse this with Tesseract ( http://search.cpan.org/~leocharre/Image-OCR-Tesseract-1.24/lib/Image/OCR/Tesseract.pod )
use Image::OCR::Tesseract 'get_ocr';
my $image = './hi.jpg';
my $text = get_ocr($image);
Is this the proper syntax?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以下载并编译最新版本的 tesseract。然后您可以编写一个(shell 或 Perl)脚本来提供所有文件进行解析。
You might download and compile the latest version of tesseract. Then you can write a (shell or Perl) script to feed all your files for parsing.