在哪里可以找到 HOCR 文件的示例?
在哪里可以找到 hocr 格式的文件示例或示例? (OCR 提取文本的格式与页面坐标一起存储。)
我一直在 Google 上查找,但无法找到任何示例。
谢谢!
Where can I find samples or examples of files in the hocr format? (The format in which OCR extracted text is stored with pages coordinates.)
I've been looking on Google, but can't kind any samples.
Thanks!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您可以使用 Tesseract 的命令行选项“hocr”以 hocr 格式输出结果格式:
You can use Tesseract's command-line option "hocr" to output results in hocr format:
以下是 hOCR 文件的片段,为了便于阅读,添加了一些换行符。不幸的是,我不记得使用哪个工具来生成它(可能是 ocropus),但我认为 tesseract 3.01 和其他人可能在 hOCR 输出中定义了每个单词的边界框而不是每个字母。
Here is a fragment of an hOCR file with a few newlines added for readability. Unfortunately, I don't remember which tool was used to generate it (possibly ocropus), but I think tesseract 3.01 and maybe others defined the bounding box for each word instead of each letter in their hOCR output.