有没有办法在 Lucene 中索引 CHM 文件?
任何人都可以建议我一种可以对 chm 文件进行索引的方法,例如 pdf 的 pdfbox 。
Can anyone please suggest me a method by which a chm file can be indexed in such as pdfbox for pdf.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果您还需要索引其他文档格式,您可能会在 Apache Tika
他们最近刚刚添加了一个 CHM 解析器(供参考:支持 CHM 格式)它将在下一个 版本。
If you have also other document formats which you need to index, you might find a better and more general solution in Apache Tika
They just added a CHM Parser recently (for reference: Support of CHM Format) and it will be in the next version.
如果您正在谈论 Microsoft 编译的 HTML 帮助 文件,您可以使用 < 从中提取文本a href="https://sourceforge.net/projects/jchm/" rel="nofollow">JChm 然后以正常方式对其进行索引。
If you're talking about Microsoft Compiled HTML Help files, you can just extract text from them with JChm and then index it in a normal way.