当前位置：文江博客话题详情

在哪里可以找到 HOCR 文件的示例？

发布于 2024-12-18 01:07:32 字数 102 浏览 0 评论 0原文

在哪里可以找到 hocr 格式的文件示例或示例？（OCR 提取文本的格式与页面坐标一起存储。）

我一直在 Google 上查找，但无法找到任何示例。

谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

美煞众生 2024-12-25 01:07:32

您可以使用 Tesseract 的命令行选项“hocr”以 hocr 格式输出结果格式：

tesseract youimage.tif out hocr

You can use Tesseract's command-line option "hocr" to output results in hocr format:

tesseract youimage.tif out hocr

回复收藏 0 原文

蓝色星空 2024-12-25 01:07:32

以下是 hOCR 文件的片段，为了便于阅读，添加了一些换行符。不幸的是，我不记得使用哪个工具来生成它（可能是 ocropus），但我认为 tesseract 3.01 和其他人可能在 hOCR 输出中定义了每个单词的边界框而不是每个字母。

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"   "http://www.w3.org/TR/html4/loose.dtd">
<html>
  <head>
    <title>
    </title>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
  </head>
  <body>
    <p>
      <span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span> 
    </p>
    <p>
      <span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span> 
    </p>
  </body>
</html>

Here is a fragment of an hOCR file with a few newlines added for readability. Unfortunately, I don't remember which tool was used to generate it (possibly ocropus), but I think tesseract 3.01 and maybe others defined the bounding box for each word instead of each letter in their hOCR output.

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"   "http://www.w3.org/TR/html4/loose.dtd">
<html>
  <head>
    <title>
    </title>
    <meta http-equiv="Content-Type" content="text/html;charset=utf-8" >
  </head>
  <body>
    <p>
      <span title="bbox 171 287 184 302">B</span><span title="bbox 186 292 195 302">a</span><span title="bbox 196 292 205 302">n</span><span title="bbox 209 287 217 302">k</span> <span title="bbox 226 287 239 302">A</span><span title="bbox 242 292 250 303">c</span><span title="bbox 252 292 260 303">c</span><span title="bbox 262 292 272 303">o</span><span title="bbox 274 293 283 303">u</span><span title="bbox 285 293 294 303">n</span><span title="bbox 297 291 302 303">t</span> <span title="bbox 309 288 323 303">N</span><span title="bbox 326 293 335 303">u</span><span title="bbox 337 293 353 303">m</span><span title="bbox 354 288 364 303">b</span><span title="bbox 366 293 375 303">e</span><span title="bbox 377 293 380 303">r</span> 
    </p>
    <p>
      <span title="bbox 170 340 183 355">B</span><span title="bbox 186 345 195 355">a</span><span title="bbox 196 345 205 355">n</span><span title="bbox 208 340 217 355">k</span> <span title="bbox 225 341 239 355">A</span><span title="bbox 242 340 252 356">d</span><span title="bbox 253 340 263 356">d</span><span title="bbox 264 345 271 355">r</span><span title="bbox 272 345 280 356">e</span><span title="bbox 282 345 289 356">s</span><span title="bbox 291 345 298 356">s</span> 
    </p>
  </body>
</html>

回复收藏 0 原文

~没有更多了~