文本索引器(适用于 Python),内置对 doc、docx 和 pdf 文件的支持
我目前正在为我的 python 程序寻找文本索引器。我将 Solr(一个 Lucene 项目)和 Whoosh(Python 原生项目)列入了候选名单。我搜索了很多关于 doc、docx 和 pdf 文件支持的文档,Solr 不断向我指出 Tika 包,它的一个版本与 Solr 集成。
结果没有在某些方面提及是否有任何软件包内置支持这三种格式。 Whoosh 和 Solr 支持他们吗?还有哪些其他开源索引器可以本机读取这些格式?
I am currently on the lookout for a text indexer for my python program. I shortlisted Solr, a Lucene project and Whoosh, which is native to python. I searched a lot of documentation on support for doc, docx and pdf files, and Solr kept pointing me to the Tika package, a version of which is integrated with Solr.
The results dont mention in certain terms if any package has inbuilt support for the three formats. Does Whoosh and Solr support them? Which other open-source indexer natively reads these formats?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
使用 Solr 1.4 或更高版本,您可以动态上传 Word 和 PDF 文件并为其建立索引;请参阅:http://wiki.apache.org/solr/ExtractingRequestHandler
With Solr 1.4 or later you can have Word and PDF files uploaded and indexed on the fly; see: http://wiki.apache.org/solr/ExtractingRequestHandler