当前位置：文江博客话题详情

根据格式（字体名称和大小）从word或pdf中提取文本

发布于 2024-08-12 01:40:26 字数 231 浏览 3 评论 0原文

我需要解析大文本（大约1000页的word或pdf文档）并将该文档中的一些文本放入数据库字段中

我发现我唯一能区分我想要提取的文本的是格式，它总是“Helvetica-Condensed”尺寸 12

我可以这样做吗？我知道如何使用字符串函数，但我应该使用什么来测试格式？

正如我所说，文本存储在Word文档或PDF中，

如果有第三方组件可以做没有问题，请参考给我

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

蔚蓝源自深海 2024-08-19 01:40:26

有 QuickPDF。价格为 249 美元。

回复收藏 0 原文

淡写薰衣草的香 2024-08-19 01:40:26

另一种选择是自己编写代码。文件规范可在线获取，如果您只是尝试要从文档中删除文本，这应该可以为您提供大部分指导。

唯一需要注意的是完全由图像构建的文档。在这种情况下（无论您使用什么来读取文件），您还需要 OCR 类型的应用程序。要查看是否属于这种情况，请打开您要从中“提取”文本的文件类型的示例，选择要复制的文本，然后尝试粘贴到记事本中。

回复收藏 0 原文

~没有更多了~

关于作者

眼泪淡了忧伤

暂无简介

0 文章

0 评论

1141 人气

关注发私信

1CH1MKgiKxn9p

文章 0 评论 0

关注

ゞ记忆︶ㄣ

文章 0 评论 0

关注

JackDx

文章 0 评论 0

关注

信远

文章 0 评论 0

关注

yaoduoduo1995

文章 0 评论 0

关注

霞映澄塘

文章 0 评论 0

友情链接

文江博客

根据格式（字体名称和大小）从word或pdf中提取文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签