在哪里可以找到 HOCR 文件的示例?

发布于 2024-12-18 01:07:32 字数 102 浏览 0 评论 0原文

在哪里可以找到 hocr 格式的文件示例或示例? (OCR 提取文本的格式与页面坐标一起存储。)

我一直在 Google 上查找,但无法找到任何示例。

谢谢!

Where can I find samples or examples of files in the hocr format? (The format in which OCR extracted text is stored with pages coordinates.)

I've been looking on Google, but can't kind any samples.

Thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

美煞众生 2024-12-25 01:07:32

您可以使用 Tesseract 的命令行选项“hocr”以 hocr 格式输出结果格式:

tesseract youimage.tif out hocr

You can use Tesseract's command-line option "hocr" to output results in hocr format:

tesseract youimage.tif out hocr
蓝色星空 2024-12-25 01:07:32

以下是 hOCR 文件的片段,为了便于阅读,添加了一些换行符。不幸的是,我不记得使用哪个工具来生成它(可能是 ocropus),但我认为 tesseract 3.01 和其他人可能在 hOCR 输出中定义了每个单词的边界框而不是每个字母。

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"   "http://www.w3.org/TR/html4/loose.dtd">
<html>
  <head>
    <title>
    </title>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
  </head>
  <body>
    <p>
      <span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span> 
    </p>
    <p>
      <span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span> 
    </p>
  </body>
</html>

Here is a fragment of an hOCR file with a few newlines added for readability. Unfortunately, I don't remember which tool was used to generate it (possibly ocropus), but I think tesseract 3.01 and maybe others defined the bounding box for each word instead of each letter in their hOCR output.

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"   "http://www.w3.org/TR/html4/loose.dtd">
<html>
  <head>
    <title>
    </title>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
  </head>
  <body>
    <p>
      <span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span> 
    </p>
    <p>
      <span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span> 
    </p>
  </body>
</html>
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文