Apache Tika 和解析文档时的字符限制
有人可以帮我解决一下吗? 可以这样完成 Tika tika = new Tika() tika.setMaxStringLength(10*1024*1024) 但是如果你不直接使用Tika,就像这样: Cont…
如何在网络应用程序中集成数据库搜索和 pdf 搜索?
我有一个带有自定义搜索引擎的 jsp Web 应用程序。 搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。 举例来说,每个文档记录具有三个字段…
Apache Tika 和文件访问而不是 Java 输入流
我希望能够创建一个新的 Tika 解析器来从文件中提取元数据。我们已经在使用 Tika,并且元数据提取将始终如一地完成。 我认为我遇到了 Tika 的这个问题…
如何使用 Solr 的 FileListEntityProcessor 在搜索结果中显示文件名
我正在尝试扫描目录中的所有 pdf/doc 文件。这工作正常,我可以扫描所有文档。 我想做的下一件事也是接收搜索结果中文件的文件名。但是文件名永远不会…
不从远程索引或提取文档 (.pdf .doc)
我正在使用 Solr 3.1、Apache Tika 0.9 和 Solrnet 0.3.1 来索引 文档,如 .doc 和 .pdf 文件。 我已成功使用此方法在本地索引并提取文档 但是 Startu…
是否可以使用 Apache Tika 按页提取 word/pdf 文件中的文本?
我能找到的所有文档似乎都表明我只能提取整个文件的内容。但我需要单独提取页面。我需要为此编写自己的解析器吗?我是否缺少一些明显的方法?…
如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?
我下载了 tika-core 和 tika-parser 库,但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么?如何使用 A…
Apache Tika 编译错误
我在 debian 上编译 Apache Tika 最新版本时遇到此错误。任何帮助将不胜感激。 我已从 tika.apache.org/download.html 下载了最新版本。使用 aptitude…
使用 Tika 从 .tex 文件中提取文本
如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…
如何利用以下 ECM 技术 - 比较
我有一个理论问题。我有大量各种格式的文档(ODS、MS Office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据(各种…
使用 Apache Jackrabbit 提取元数据
我使用过一点 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。 我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但…
使用 Apache Solr 检索提取的文本
我是 Apache Solr 的新手,我想用它来索引 pdf 文件。到目前为止,我已成功启动并运行它,现在可以搜索添加的 pdf 文件。 但是,我需要能够从结果中检…
使用java查找wma文件的mime类型
我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因,tika 将 wma 文件(Microsoft 拥有的 Windows Media Audio 格式)的 mime …