为什么使用 SQL Server 在 MS Word 和 PDF 中搜索内容不准确?
我尝试设置 SQL Server 来索引和搜索 MS Word 和 PDF 文件,根据 http: //www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx
但是当我在SQL Server中设置后,我发现有些单词在SQL Server中无法搜索。 SQL Server 索引这些文件时似乎存在问题。
以前有人经历过同样的事情吗?我可以使用哪些替代方法来索引和搜索 MS Word 和 PDF 文件中的内容?
I tried to set up SQL Server to index and search MS Word and PDF files, according to http://www.codeproject.com/KB/architecture/sqlfulltextindexing.aspx
But after I set up in SQL Server, I found some word can not be searched in SQL Server. It seems that there is problem while SQL Server indexes those files.
Anyone experienced the same thing before? What alternatives can I use to index and search the content in MS Word and PDF files?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
PDF 使用文本和二进制数据。我认为 DOC 完全是二进制的。 DocX 本质上是一个压缩文件(因此是二进制文件)。如果没有适当的解析器,对这些格式进行文本搜索可能不可行。
PDF uses both text and binary data. DOC is I think entirely binary. DocX is essentially a zipped file (hence binary). Doing text search on these formats without a proper parser may not be feasible.