当前位置：文江博客话题详情

C# asp.net ms-office

解析Office文档

发布于 2024-07-06 01:13:23 字数 212 浏览 5 评论 0 原文

我希望能够阅读办公文档的内容（对于自定义爬虫）。

需要可读的office版本是2000年到2007年的。我主要想爬取word、excel和powerpoint文档。

我不想检索格式，只想检索其中的文本。

该爬虫基于 lucene.NET（如果可以提供一些帮助）并且是 C# 语言。

我已经使用 iTextSharp 来解析 PDF

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（5）

聊慰 2024-07-13 01:13:23

如果您已经在使用 Lucene.NET，您可能只想利用现有的各种 IFilter 来执行此操作。看一下开源SeekAFile 项目。它将向您展示如何使用 IFilter 打开 IFilter 可用的任何文件类型并从中提取此信息。有适用于 Word、Excel、Powerpoint、PDF 和大多数其他常见文档类型的 IFilter。

回复收藏 0 原文

音栖息无 2024-07-13 01:13:23

有一个优秀的开源项目 POI，唯一的缺点 - 它是为 Java 编写的。
.net 端口在某种程度上还处于测试阶段。

回复收藏 0 原文

深海里的那抹蓝 2024-07-13 01:13:23

这里列出了用于将 Word 文档转换为纯文本的各种工具，然后您就可以执行此操作无论与.

回复收藏 0 原文

玉环 2024-07-13 01:13:23

这是 Krishnan LN 发表的关于 c-charpcorner 的精彩小帖子它提供了使用 Word Primary Interop 程序集从 Word 文档中获取文本的基本代码。

基本上，您从 Word 文档中获取“WholeStory”属性，将其粘贴到剪贴板，然后将其从剪贴板中拉出，同时将其转换为文本格式。剪贴板步骤大概是为了去除格式。

对于 PowerPoint，您可以执行类似的操作，但需要循环播放幻灯片，然后为每张幻灯片循环播放形状，并获取每个形状中的“TextFrame.TextRange.Text”属性。

对于 Excel，由于 Excel 可以是 OleDb 数据源，因此使用 ADO.NET 最简单。这是Laurent Bugnion 的好帖子，介绍了这项技术。

回复收藏 0 原文

因为看清所以看轻 2024-07-13 01:13:23

您也可以考虑查看 DtSearch (www.DtSearch.com)。虽然它主要是一个搜索工具，但它在从大量文件类型中提取文本方面表现出色，并且比 Oracle/Stellent OutsideIn 技术或 Autonomy 的同等技术等其他选项便宜得多。

我已经使用 DtSearch 多年，发现它对于此类任务来说是不可或缺的。

回复收藏 0 原文

~没有更多了~

关于作者

枯寂

暂无简介

文章

评论

27 人气

关注发私信

相关话题

更多

推荐作者

关注

微信用户

文章 0 评论 0

关注

夜夜流光相皎洁

文章 0 评论 0

关注

零度℉

文章 0 评论 0

关注

百度③文鱼

文章 0 评论 0

关注

qq_O3Ao6frw

文章 0 评论 0

关注

Wugswg

文章 0 评论 0

更多

友情链接

文江博客

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文