当前位置：文江博客话题详情

使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么？

发布于 07-05 15:53 字数 1560 浏览 11 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

隔纱相望2024-07-12 15:53:39

您可以使用 Windows 内置的 IFilter 接口从任何受支持的文件类型中提取文本和属性（作者、标题等）。它是一个 COM 接口，因此您可以使用 .NET 互操作工具。

您还必须从 Adobe 下载免费的 PDF IFilter 驱动程序。

回复收藏 0 原文

可是我不能没有你2024-07-12 15:53:39

这是一个很好的列表：
PDF/C# 开源库

其中大多数都是为了创建 PDF，但他们也应该具有阅读能力。

还有这个：iText

我以前只玩过iText。没什么大不了的。

回复收藏 0 原文

农村范ル2024-07-12 15:53:39

我们使用 Aspose 取得了良好的效果。

回复收藏 0 原文

梦纸2024-07-12 15:53:39

除了已批准的答案之外：还有其他商业解决方案可以替代 Adobe IFilter 进行文本索引（提供类似的 API，但也提供额外的高级功能）：

Foxit PDF IFilter：与 Adobe 插件相比，提供更快的文本索引。
PDFLib PDF iFilter：包括对损坏的 PDF 文档的支持以及要运行的附加 API您自己的查询。

如果您正在寻找可以从托管 .NET 应用程序和传统编程语言（例如经典 ASP 或 VB6）中使用的单一工具，那么这就是商业 ByteScout PDF Extractor SDK 适合，因为它提供 .NET 和 ActiveX/COM API。

免责声明：我为 ByteScout 工作

回复收藏 0 原文

一影成城2024-07-12 15:53:39

Docotic.Pdf 库可用于从 PDF 文档中提取格式化文本或纯文本。

该图书馆可以阅读任何版本的PDF文档（达到最新发布的标准）。该库还支持页面提取。

示例代码链接：

免责声明：我工作对于图书馆的供应商。

回复收藏 0 原文

~没有更多了~

关于作者

憧憬巴黎街头的黎明

暂无简介

文章

27 人气

关注发私信

qq_jyh6zNJB

文章 0 评论 0

关注

晶哥哥很专祎

文章 0 评论 0

关注

聆听风音

文章 0 评论 0

关注

星

文章 0 评论 0

关注

qq_3LFa8Q

文章 0 评论 0

关注

奢华的一滴泪

文章 0 评论 0

友情链接

文江博客

使用 C# 或经典 ASP (VBScript) 从 PDF 中提取文本的好方法是什么？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签