用于全文搜索的索引数据库,Lucene/iFiler/SQL FTS/..etc

发布于 2024-10-10 11:00:05 字数 671 浏览 0 评论 0原文

我已经询问过执行全文搜索的最佳算法/实践,现在我想决定使用哪个。在过去的几天里,我已经彻底阅读了这个主题,但没有任何经验,我仍然需要帮助来找出最适合我的需求的工具,这就是这个问题的目的。

需要考虑的要点:
1-我正在使用 C#.Net 2010 和 SQL Server 2008 R2,即我需要一个 C#/sql 友好的方法
3- 要索引的文件是 PDF、MS Office、TXT
3-我还使用 OCR 将收到的传真文档渲染为文本文件,现在我正在考虑使用 OCR 从数据库中输入的任何图片渲染文本,并使用该文本为图片提供索引字符串.
4-能够为同一单词的不同形式提供不同的搜索结果。即搜索“国际”和“国际” “国际化”应该会带来不同的结果
5-我感兴趣的主要工具:

  • 通过 iTextSharp 渲染文本,然后将其提供给 Lucene 以获取索引字符串(这是使用 Lucene 的最佳方式吗?)
  • 使用 adobe iFilter,尽管我不确定这是否足够对于我的系统中的所有文件类型,
  • 使用 SQL FTS。它是否足够强大来处理文件内容的索引并执行复杂的搜索操作?
  • 关于其他工具的任何其他建议都非常受欢迎,只要它们提供更好的功能
Examples, Tutorials and links are most appreciated :) thanks in advance!

I have asked about the best algorithms/practices to perform full text search already and now I want to decide which to use. I have read about this topic thoroughly in the past few days but having no experience whatsoever, I still need help in figuring out the best tools for my needs, which is the aim of this question.

Points to consider:
1- I'm using C#.Net 2010 along with SQL Server 2008 R2, i.e i need a C#/sql-friendly method
3- The files to be indexed are PDF, MS Office, TXT
3- I'm also using an OCR to render received fax docs into text files and now i'm thinking about using the OCR to render text from any picture entered in the database and use that text to provide an index string for pictures as well.
4- The ability to provide different search results for different forms of the same word. i.e. searching for "international" & "internationalization" should return different results
5- The main tools i am interested in:

  • Rendering text by iTextSharp and then feeding it to Lucene to get the index string (is it the best way to use Lucene?)
  • Using adobe iFilter, although i'm not sure if this is enough for all the file types in my system
  • Using SQL FTS. Is it strong enough to handle indexing the content of the files and perform complex search operations?
  • Any other suggestions about other tools are very welcome as long as they provide better functionality

Examples, Tutorials and links are most appreciated :) thanks in advance!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

假扮的天使 2024-10-17 11:00:05

我使用 Lucene 来索引 PDF 和其他文档;非常棒。

使用 Lucene 为 PDF 文档编制索引

使用 Lucene 索引 Office 文件

Lucene 不支持词干提取(第 4 点),因此这两个单词将返回不同的结果;问题是您是否希望这两个搜索词返回相同的结果。

I've used Lucene for indexing PDF and other documents; it's pretty great.

Indexing PDF Documents with Lucene

Index Office files with Lucene

Lucene doesn't support word stemming (point 4), so those two words will return different results; the problem is if you want those two search terms to return the same resuls.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文