如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?
我下载了 tika-core 和 tika-parser 库,但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么?如何使用 A…
Apache Tika 编译错误
我在 debian 上编译 Apache Tika 最新版本时遇到此错误。任何帮助将不胜感激。 我已从 tika.apache.org/download.html 下载了最新版本。使用 aptitude…
使用 Tika 从 .tex 文件中提取文本
如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…
如何利用以下 ECM 技术 - 比较
我有一个理论问题。我有大量各种格式的文档(ODS、MS Office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据(各种…
使用 Apache Jackrabbit 提取元数据
我使用过一点 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。 我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但…
使用 Apache Solr 检索提取的文本
我是 Apache Solr 的新手,我想用它来索引 pdf 文件。到目前为止,我已成功启动并运行它,现在可以搜索添加的 pdf 文件。 但是,我需要能够从结果中检…
使用java查找wma文件的mime类型
我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因,tika 将 wma 文件(Microsoft 拥有的 Windows Media Audio 格式)的 mime …
Solr Tika,带有样式的文本
我看过这个链接: http://www.lucidimagination.com/Community /听取专家的意见/文章/内容提取-Tika 我得到的是纯文本,没有任何来自 Tika 的 Solr 样…
使用 Solr 用页码索引 PDF
我正在使用 ExtractingRequestHandler 通过 Solr 为 PDF 建立索引。我想显示页码以及文档中的点击次数,例如“在第 2、3 和 5 页的 bar.pdf 中找到了…
使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件
您可以将 ExtractingRequestHandler 和 Tika 与任何一个一起使用吗 压缩文件格式(zip、tar、gz 等)来提取内容以进行索引? 我使用curl 向solr 发送a…
如何使用 apache Solr 1.4.1 配置 Apache Tika
我想索引大量 pdf 文档。 我找到了一个参考资料,表明可以使用 Apache Tika 来完成此操作,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 …
使用 apache tika 从 gzip 文件中提取 xml 数据?
我正在工作一个项目,其中我需要使用 apache tika[AM NEW TO TIKA] 从 gz 文件中提取 xml(站点地图)数据。 fie 名称类似于 sitemap01.xml.gz 我可以…