文本索引器(适用于 Python),内置对 doc、docx 和 pdf 文件的支持

发布于 2024-11-24 02:31:37 字数 248 浏览 6 评论 0原文

我目前正在为我的 python 程序寻找文本索引器。我将 Solr(一个 Lucene 项目)和 Whoosh(Python 原生项目)列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档,Solr 不断向我指出 Tika 包,它的一个版本与 Solr 集成。

结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗?还有哪些其他开源索引器可以本机读取这些格式?

I am currently on the lookout for a text indexer for my python program. I shortlisted Solr, a Lucene project and Whoosh, which is native to python. I searched a lot of documentation on support for doc, docx and pdf files, and Solr kept pointing me to the Tika package, a version of which is integrated with Solr.

The results dont mention in certain terms if any package has inbuilt support for the three formats. Does Whoosh and Solr support them? Which other open-source indexer natively reads these formats?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

人事已非 2024-12-01 02:31:41

使用 Solr 1.4 或更高版本,您可以动态上传 Word 和 PDF 文件并为其建立索引;请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler

Solr 的 ExtractingRequestHandler 使用 Tika 允许用户将二进制文件上传到 Solr,并让 Solr 从中提取文本,然后对其进行索引。

With Solr 1.4 or later you can have Word and PDF files uploaded and indexed on the fly; see: http://wiki.apache.org/solr/ExtractingRequestHandler

Solr's ExtractingRequestHandler uses Tika to allow users to upload binary files to Solr and have Solr extract text from it and then index it.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文