为什么使用 SQL Server 在 MS Word 和 PDF 中搜索内容不准确?

发布于 2024-11-02 23:44:14 字数 357 浏览 0 评论 0原文

我尝试设置 SQL Server 来索引和搜索 MS Word 和 PDF 文件,根据 http: //www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx

但是当我在SQL Server中设置后,我发现有些单词在SQL Server中无法搜索。 SQL Server 索引这些文件时似乎存在问题。

以前有人经历过同样的事情吗?我可以使用哪些替代方法来索引和搜索 MS Word 和 PDF 文件中的内容?

I tried to set up SQL Server to index and search MS Word and PDF files, according to http://www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx

But after I set up in SQL Server, I found some word can not be searched in SQL Server. It seems that there is problem while SQL Server indexes those files.

Anyone experienced the same thing before? What alternatives can I use to index and search the content in MS Word and PDF files?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

柠栀 2024-11-09 23:44:14

PDF 使用文本和二进制数据。我认为 DOC 完全是二进制的。 DocX 本质上是一个压缩文件(因此是二进制文件)。如果没有适当的解析器,对这些格式进行文本搜索可能不可行。

PDF uses both text and binary data. DOC is I think entirely binary. DocX is essentially a zipped file (hence binary). Doing text search on these formats without a proper parser may not be feasible.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文