从文本图像生成字体

发布于 2024-10-04 00:28:51 字数 280 浏览 5 评论 0原文

是否可以生成特定的下面给定图像的字体集？
我的想法是生成特定的字体对于下面给出的文本图像，通过手动选择部分图像并将其映射到一组 letter's.为此生成字体然后用这个字体来制作可读的 OCR.Is 生成可以使用任何开源字体执行？还请大家推荐一下有什么好的 OCR 吗？

替代文本

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

你与昨日 2024-10-11 00:28:51

Abbyy FineReader 10 的结果比预期要好，但可以预见的是，当字符接触时会感到困惑。

你的问题是行距太小。每行的下降部分与正下方行中的字符的字符边界框重叠。这使得字符分割几乎不可能，因为字符是接触且重叠的。重叠字符的组合数量实际上是不可能训练的。 “g”和“y”字符是最糟糕的。

双行间距版本的 OCR 效果可能相当好。

分段和分离每一行的自定义解决方案以及一本好的字典肯定会改善结果。但仍然会有一些错误需要手动纠正。自定义例程必须处理上升部分和下降部分，并尝试将图像分割成线条，然后将其输入到合适的 OCR 引擎。一种方法是分析页面上的每个字符块并将其分配给一行。 Leptonica（www.leptonica.com - C 成像库）可能会让这项工作变得更容易一些。

如果不先将分辨率提高到 200 或 300 dpi，我不会尝试此操作。

有了这个定制解决方案，如果 OCR 引擎最初表现不佳，训练字体就成为一种选择。

Abbyy (www.abbyy.com) 或 Google Tesseract OCR 3.00 将是一个不错的起点。

但不能保证所有这些是否都会起作用。这对于 OCR 来说是一个相当困难的页面，您需要考虑是否最好在海外手动输入。这取决于需要处理的页面数量。

回复收藏 0 原文

~没有更多了~