从 Rails 应用程序（Word、PDF、Excel 等）搜索附件

发布于 2024-12-09 04:35:33 字数 988 浏览 0 评论 0原文

我在 Stack Overflow 上发表的第一篇文章，请温柔一点！我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎，该引擎将索引大约 2,000 个文档，这些文档是 PDF、Word、Excel 和 HTML 的混合体。

我本来希望使用 Thinking-sphinx 或 Texticle（最流行的是 https://www. ruby-toolbox.com/categories/rails_search.html），但据我了解：

Texticle 需要 PostgreSQL。我在MySQL上。
Thinking-sphinx 不会在文件系统上索引文件。
即使我将附件保存到数据库中，thinking-sphinx 仍然无法工作，因为它需要纯文本（根据 http://groups.google.com/group/thinking-sphinx/browse_thread/thread/69cdc1c8e1c096ff）

所以我有两个选择：

您推荐哪种方法？

如果是不同的搜索工具，那么选择哪一种？我的要求非常基本，所以我真的很想要一个非常容易设置并且有大量文档、示例和教程的工具！

如果是提取，您能推荐常见文件类型（例如 PDF、Word、Excel 和 HTML）的提取器吗？

谢谢大家。非常感谢您的帮助。

需要登录才能够评论，你可以免费注册一个本站的账号。

夏日落 2024-12-16 04:35:33

好吧，我以前没有做过二进制文件索引，但显然 Solr 支持它，请参阅使用 SPHINX 索引文件/ultrasphinx 和
http://wiki.apache.org/solr/ExtractingRequestHandler 有很多可用的宝石对于 Solr 来说，Sunspot 似乎是一种流行的http://outoftime.github.com/sunspot/ 虽然 Sunspot 似乎没有内置对 Solr Cells 的支持，但似乎还有一些工作要做 https://github.com/tomasc/sunspot_cell 可能有更好的选择，但这应该给你一个好的开始观点。