有人有处理 Nuance OmniPage SDK XML 格式的经验吗?

发布于 2024-11-26 21:57:57 字数 2083 浏览 1 评论 0原文

我正在使用 Nuance OmniPage SDK 对图像和 PDF 执行 OCR,对于我的一种情况,我必须解析 OCR 在识别文件时生成的 XML 文件,但这些数字实际上没有意义。以下是 SDK 的示例输出:

<page ocr-vers="OmniPageCSDK16" app-vers="OfficeDrop">
    <description backColor="ffffff">
        <source
            file="C:\Users\workspace\jobs\src\test\resources\test-docs\0003.tiff"
            dpix="300" dpiy="300" sizex="2480" sizey="3509" />
        <theoreticalPage size="Custom" marginLeft="0"
            marginTop="0" marginRight="0" marginBottom="0" width="2480" height="3509" />
    </description>
    <zones>
        <textZone l="1814" t="1517" r="4694" b="1733" fillingMethod="omnifont"
            recognitionModule="omnifontPlus2w" chrFilter="all">
            <ln l="1814" t="1517" r="4690" b="1728" baseLine="1680"
                underlined="none" fontSize="1100">
                <wd l="1814" t="1517" r="2539" b="1728">Sample</wd>
                <space width="67" />
                <wd l="2606" t="1541" r="2995" b="1680">text</wd>
                <space width="72" />
                <wd l="3067" t="1570" r="3302" b="1680">on</wd>
                <space width="72" />
                <wd l="3374" t="1517" r="3734" b="1680">line</wd>
                <space width="91" />
                <wd l="3826" t="1522" r="3912" b="1680">1</wd>
                <space width="82" />
                <wd l="3994" t="1570" r="4459" b="1728">page</wd>
                <space width="91" />
                <wd l="4550" t="1522" r="4690" b="1680">1.</wd>
                <space />
            </ln>
        </textZone>
    </zones>
</page>

页面大小定义很容易计算出来,((2480 * 72) / 300) 将为我提供最终 PDF 页面的正确页面宽度(以磅为单位)(然后是高度) ,但其他值没有任何意义。

1100 的字体大小是多少?那么这些词的坐标呢?他们如何拥有页面上不存在的位置的坐标?

有谁知道这个 XML 格式是什么或者可以指导我做文档吗?我搜索了 SDK 附带的所有手册,但仍然找不到与这些值代表的内容或它们使用的单位相关的任何内容(我确信它不是像素或点,我猜)。

任何帮助表示赞赏。我正在使用 java 绑定来访问 OmniPage C SDK。

I am using the Nuance OmniPage SDK to perform OCR on images and PDFs, for one of my cases I have to parse the XML file the OCR generates when recognizing a file, but the numbers don't really make sense. Here's a sample output for the SDK:

<page ocr-vers="OmniPageCSDK16" app-vers="OfficeDrop">
    <description backColor="ffffff">
        <source
            file="C:\Users\workspace\jobs\src\test\resources\test-docs\0003.tiff"
            dpix="300" dpiy="300" sizex="2480" sizey="3509" />
        <theoreticalPage size="Custom" marginLeft="0"
            marginTop="0" marginRight="0" marginBottom="0" width="2480" height="3509" />
    </description>
    <zones>
        <textZone l="1814" t="1517" r="4694" b="1733" fillingMethod="omnifont"
            recognitionModule="omnifontPlus2w" chrFilter="all">
            <ln l="1814" t="1517" r="4690" b="1728" baseLine="1680"
                underlined="none" fontSize="1100">
                <wd l="1814" t="1517" r="2539" b="1728">Sample</wd>
                <space width="67" />
                <wd l="2606" t="1541" r="2995" b="1680">text</wd>
                <space width="72" />
                <wd l="3067" t="1570" r="3302" b="1680">on</wd>
                <space width="72" />
                <wd l="3374" t="1517" r="3734" b="1680">line</wd>
                <space width="91" />
                <wd l="3826" t="1522" r="3912" b="1680">1</wd>
                <space width="82" />
                <wd l="3994" t="1570" r="4459" b="1728">page</wd>
                <space width="91" />
                <wd l="4550" t="1522" r="4690" b="1680">1.</wd>
                <space />
            </ln>
        </textZone>
    </zones>
</page>

The page size definition is quite easy to figure out, ((2480 * 72) / 300) is going to give me the correct page width in points (and then the height) for the final PDF page, but the other values don't make any sense.

What is this font-size of 1100? And these word coordinates? How can they have coordinates that are in positions that do not exist on the page?

Is there anyone out there that knows what this XML format is or that could point me do documentation? I have searched around all manuals that came with the SDK and I still can't find anything related to what these values represent or which unit they are using (i'm sure it isn't pixels or points, i guess).

Any help is appreciated. I'm using java bindings to access the OmniPage C SDK.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

杀お生予夺 2024-12-03 21:57:57

Omni Page 文字坐标通常以缇为单位输出,您需要进行相应的点或像​​素转换。例如,如果我想计算 200 dpi 图像的测量值,我需要这样做 (值*200)/1440 像素。要交叉检查,只需在画笔中打开图像并查看每个单词的指针位置。

Omni Page word coordidates are normally outputted in terms of Twips you need to do the respective point or pixel conversion. for example if I want to calculate measurement for a 200 dpi image I need to do this way (value*200)/1440 pixels .To cross check just open the image in paintbrush and see the pointer position for each word.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文