将 SQL Server 中的二进制文件另存为 BLOB 和文本（或从全文索引中获取文本）

发布于 2024-08-26 12:33:38 字数 363 浏览 10 评论 0原文

目前，我们将文件（PDF、DOC）作为 BLOB 字段保存到数据库中。我希望能够检索文件的原始文本，以便能够对其进行操作以实现命中突出显示和其他功能。

有谁知道一种简单的方法来解析文件并在保存时保存原始文本，通过 SQL 或 .net 代码。我发现 Adobe 有一个 filtdump 实用程序，可以将 PDF 转换为文本。 Filtdump 似乎是一个命令行工具，我没有看到使用文件流的方法。 Office 文档和其他文件类型的提取器是什么？

- 或 -

有没有办法从 SQL 全文索引中提取原始文本，而不使用第 3 方过滤器？

请注意，我正在尝试构建一个 .net & MSSql 解决方案，无需使用 Lucene 等第三方工具

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鱼窥荷 2024-09-02 12:33:38

如果不是绝对有必要直接从 SQL Server 流式传输到您的应用程序，那么困难的部分是解析 PDF 或 DOC 文件格式。

iTextSharp 库将让您访问 PDF 文件的内部结构：

http://itextsharp.sourceforge .net/

这是一个声称可以解析Word文档的商业产品：

Aspose.Words

编辑添加：

我想您也在问是否有办法让 SQL Server 全文索引完成这项工作通过添加 IFilter 为您提供帮助。这听起来是个好主意。我自己没有这样做，但微软显然很长时间以来都支持Word过滤器，现在Adobe已经发布了一个（免费）PDF过滤器。这里有很多信息：

Filter Central

优化 SQL Server 全文索引的 10 种方法

SQL Server 全文搜索：语言功能 - 有点过时但很容易理解。

回复收藏 0 原文

情仇皆在手 2024-09-02 12:33:38

SQL Server 全文搜索功能使用 IFilter 从 PDF 或 Office 文件格式中提取纯文本。您可以在服务器上安装 IFilter，或者如果您的代码与 SQL Server 在同一台计算机上运行，则您已经拥有它。

以下文章展示了如何使用 .NET 中的 IFilter：http://www. codeproject.com/KB/cs/IFilter.aspx

回复收藏 0 原文

划一舟意中人 2024-09-02 12:33:38

您可以从 C# 应用程序中打开 .doc 文件并将其另存为文本，然后将文本和 .doc 文档放入数据库中。

回复收藏 0 原文

鼻尖触碰 2024-09-02 12:33:38

如果您使用的是 SQL 2008，那么您可以考虑使用新的 FILESTREAM 功能。

您的数据存储在 varbinary(max) 列中，但您也可以通过常规 Win32 句柄访问原始数据。

这里有一些示例代码，展示了如何获取句柄。

回复收藏 0 原文

溺孤伤于心 2024-09-02 12:33:38

我遇到了同样的问题...我通过将以下内容添加到我的应用程序中解决了它：

EPocalipse.IFilter.dll（适用于除 Office 2007 之外的所有内容）
文档，由于 64x Windows 问题）
OpenXML SDK 2.0（适用于 Office 2007 文档）

我使用它们来获取纯文本，然后将其与二进制数据一起存储在数据库中。请记住，我当然不是专家，因此可能有更好的方法来执行此操作，但这适用于除“快速保存”2007 年之前的 Word 文档之外的所有文档，这些文档显然不会被 iFilter 读取。如果发生错误，我只是让我的用户重新保存文档，一切正常。

如果您想要一些示例代码，请告诉我...我现在就会发布它，但它有点长。

回复收藏 0 原文

~没有更多了~

关于作者

不打扰别人

暂无简介

文章

29 人气

关注发私信

文章 0 评论 0

关注

wkeithbarry

文章 0 评论 0

关注

只有一腔孤勇

文章 0 评论 0

友情链接

文江博客

将 SQL Server 中的二进制文件另存为 BLOB 和文本（或从全文索引中获取文本）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

Serendipity

xxxx

迷离°

wkeithbarry

只有一腔孤勇

友情链接

将 SQL Server 中的二进制文件另存为 BLOB 和文本（或从全文索引中获取文本）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

Serendipity

xxxx

迷离°

wkeithbarry

只有一腔孤勇

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。