apache-tika

apache-tika

文章 0 浏览 2

Apache Tika 和解析文档时的字符限制

有人可以帮我解决一下吗? 可以这样完成 Tika tika = new Tika() tika.setMaxStringLength(10*1024*1024) 但是如果你不直接使用Tika,就像这样: Cont…

阳光下慵懒的猫 2024-11-09 19:40:55 0 0

如何在网络应用程序中集成数据库搜索和 pdf 搜索?

我有一个带有自定义搜索引擎的 jsp Web 应用程序。 搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。 举例来说,每个文档记录具有三个字段…

渔村楼浪 2024-11-08 02:14:16 0 0

Apache Tika 和文件访问而不是 Java 输入流

我希望能够创建一个新的 Tika 解析器来从文件中提取元数据。我们已经在使用 Tika,并且元数据提取将始终如一地完成。 我认为我遇到了 Tika 的这个问题…

原谅过去的我 2024-11-07 21:03:22 1 0

如何使用 Solr 的 FileListEntityProcessor 在搜索结果中显示文件名

我正在尝试扫描目录中的所有 pdf/doc 文件。这工作正常,我可以扫描所有文档。 我想做的下一件事也是接收搜索结果中文件的文件名。但是文件名永远不会…

莫相离 2024-11-07 04:22:38 0 0

不从远程索引或提取文档 (.pdf .doc)

我正在使用 Solr 3.1、Apache Tika 0.9 和 Solrnet 0.3.1 来索引 文档,如 .doc 和 .pdf 文件。 我已成功使用此方法在本地索引并提取文档 但是 Startu…

星星的轨迹 2024-11-04 22:17:46 0 0

是否可以使用 Apache Tika 按页提取 word/pdf 文件中的文本?

我能找到的所有文档似乎都表明我只能提取整个文件的内容。但我需要单独提取页面。我需要为此编写自己的解析器吗?我是否缺少一些明显的方法?…

漫雪独思 2024-11-04 06:54:27 1 0

如何判断文档是否为文章?

假设我有 X 个文档,算法/库/tika config/nekohtml 过滤器会告诉我哪些是“文章”,哪些不是,对于那些给我文章文本的文件(即没有其他周围文本) )…

素染倾城色 2024-10-30 05:08:25 1 0

如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?

我下载了 tika-core 和 tika-parser 库,但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么?如何使用 A…

臻嫒无言 2024-10-26 16:24:06 0 0

Apache Tika 编译错误

我在 debian 上编译 Apache Tika 最新版本时遇到此错误。任何帮助将不胜感激。 我已从 tika.apache.org/download.html 下载了最新版本。使用 aptitude…

靖瑶 2024-10-25 23:49:39 2 0

使用 Tika 从 .tex 文件中提取文本

如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…

梅倚清风 2024-10-22 03:37:44 2 0

如何利用以下 ECM 技术 - 比较

我有一个理论问题。我有大量各种格式的文档(ODS、MS Office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据(各种…

懷念過去 2024-10-19 15:07:25 2 0

使用 Apache Jackrabbit 提取元数据

我使用过一点 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。 我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但…

赠意 2024-10-19 09:42:50 3 0

使用 Apache Solr 检索提取的文本

我是 Apache Solr 的新手,我想用它来索引 pdf 文件。到目前为止,我已成功启动并运行它,现在可以搜索添加的 pdf 文件。 但是,我需要能够从结果中检…

梦途 2024-10-16 19:18:59 3 0

使用java查找wma文件的mime类型

我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因,tika 将 wma 文件(Microsoft 拥有的 Windows Media Audio 格式)的 mime …

烟酒忠诚 2024-10-16 18:38:53 3 0

用Java解析文档结构

我们需要使用 Java 从给定的文本文档中获取树状结构。使用的文件类型应该是通用且开放的(rtf、odt,...)。目前我们使用 Apache Tika 解析多个文档中…

满身野味 2024-10-16 18:17:08 4 0
更多

推荐作者

烙印

文章 0 评论 0

singlesman

文章 0 评论 0

独孤求败

文章 0 评论 0

晨钟暮鼓

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文