处理 ORed 文本

发布于 2024-09-06 12:44:09 字数 357 浏览 3 评论 0原文

我正在使用库从 OCRed Tiff 文件中提取文本并将其转储到数据库中。我提取的文本实际上是具有 NAME、DOB、COUNTRY 等字段的表单。由于 OCR 无法区分实际值和标签之间的差异,因此它只是转储所有文本。现在我在数据库中有以下格式的文本:

名称:MyName 地址:我的地址

现在下一步是从数据库中提取值 lile MyNameMyAddrss。文档类型可能会有所不同,因此通用解析器可能无法工作。

您建议如何处理这种情况?我应该编写不同的解析器吗? ANTLR 可以帮助我吗?如果是的话怎么办?请指导我。

我正在开发 .NET

I am extracting texts from OCRed Tiff files by using a library and dumping it in database. The text I am extracting are actually FORMS having fields like NAME,DOB,COUNTRY etc. Since OCR does not the difference between actual value and the label,it's just dumping all text. Now I have text in DB in following format:

Name: MyName
Address: My Address

etc

Now the next step is to extract values lile MyName and MyAddrss from the DB. The document types may varry hence a generic parser might not work.

What would you suggest to deal this situation? Should I write different parsers? may ANTLR can help me? if yes then how? Kindly guide me.

I am working on .NET

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文