用于从 Open XML 文件格式中提取纯文本的 ASP.NET 库

发布于 2024-09-01 04:49:16 字数 276 浏览 5 评论 0原文

是否有一个预先存在的库可以从 Open XML 文件格式(例如 docx、pptx 和 xlsx)文件中提取纯文本?

我需要它来填充 lucene.net 索引。

我找到了这个 从 docx 中提取文本的示例,它似乎有效好的。但在基于此构建我自己的解决方案之前,我想知道是否有其他文件格式可用的东西?

Is there a pre-existing library to extract plain text form Open XML file formats (e.g. docx, pptx, and xlsx) files?

I require this to populate a lucene.net index.

I've found this example which extracts text from docx and it seems to work okay. But before building my own solution based on this I was wondering if there's something already available for the other file formats?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(3

‘画卷フ 2024-09-08 04:49:16

在花钱之前,可能值得看看 IFilter 界面 - 这些界面旨在完全满足您的需求。

http://msdn.microsoft.com/en-us/library/ms691105

http://www.codeproject.com/KB/cs/IFilter.aspx

(代码项目链接底部的一些链接)。

MS 为 Office 文件类型提供 IFilter。
http://www.microsoft.com/downloads/details.aspx microsoft.com/downloads/details.aspx?familyid=60c92a37-719c-4077-b5c6-cac34f4227cc&displaylang=en

我知道我们使用这项技术来允许我们使用 Lucene 索引 PDF,但我没有编写实际的代码恐怕没有多大用处。

如果您的 Google 能力很强,我相信您可以挖掘更多使用 IFilter 的示例来完全实现您想要的功能。

Before spending cash, it may be worth looking at the IFilter interface - these were/are designed to do exactly what you want.

http://msdn.microsoft.com/en-us/library/ms691105

http://www.codeproject.com/KB/cs/IFilter.aspx

(Some links at the bottom of the codeprject link).

MS provide IFilters for office file types.
http://www.microsoft.com/downloads/details.aspx?familyid=60c92a37-719c-4077-b5c6-cac34f4227cc&displaylang=en

I know that we use this technology to allow us to index PDFs using Lucene but I did not write the actual code and cannot be of much use I am afraid.

If your Google-fu is strong I am sure you can dig up more examples of using IFilters to do exactly what you want.

假装不在乎 2024-09-08 04:49:16

观看 aspose.com,他们有一个很好的库来处理 ppt 和 pptx。

watch aspose.com, they have a good library to handle both ppt and pptx.

南风几经秋 2024-09-08 04:49:16

您可以尝试 Toxy,一个用于 .NET 的开源文本/数据提取框架。目前,它支持 xls、xlsx、doc、docx。很快就会在 1.5 版本中支持 pptx。

有关详细信息,您可以查看此处

You can try Toxy, an open source text/data extraction framework for .NET. For now, it supports xls, xlsx, doc, docx. It will support pptx in version 1.5 very soon.

For detail, you can check here

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文