使用 Apache Jackrabbit 提取元数据
我使用过一点 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。
我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但除了 jackrabbit-text-extractors 模块之外,我没有看到任何其他对文档元数据(都柏林核心属性)的支持。
更多关于 jackrabbit-text-extractors maven 工件版本 2.0-SNAPSHOT 似乎不在 SVN 主干中。
有人可以告诉我选择什么方法吗?
I was using Alfresco a little bit and there were a thin abstraction layer above Apache Tika for extracting metadata from documents.
I decided to use only Jackrabbit because I don't need such a robust solution. But except jackrabbit-text-extractors module I don't see any other support for document metadata (Dublin core properties).
More over the jackrabbit-text-extractors maven artifact version 2.0-SNAPSHOT doesn't seem to be in SVN trunk.
Could please anybody tell me what approach to choose ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
我的理解是,jackrabbit 现在使用 tika 进行文本提取
https://issues.apache.org/ jira/浏览/JCR-1878
my understanding is that jackrabbit uses tika for text extraction now
https://issues.apache.org/jira/browse/JCR-1878