apache-tika

apache-tika

文章 0 浏览 3

PDFBox 在单词中添加空格

当我尝试从 PDF 文件中提取文本时,它似乎在几个单词之间随机插入空格。 我在本页下载部分的以下示例文件中使用 pdfbox-app-1.6.0.jar(最新版本): …

始终不够 2024-12-12 13:29:39 0 0

使用 solr 的提取功能时如何将数据添加到动态字段?

我正在使用名为 solr-php-client (http://code.google.com/p/solr-php-client/) 的 PHP 库来与我的 Solr 服务器交互。我可以从文档中提取数据,存储它…

当梦初醒 2024-12-10 07:32:43 1 0

从 Rails 应用程序(Word、PDF、Excel 等)搜索附件

我在 Stack Overflow 上发表的第一篇文章,请温柔一点!我即将为客户启动一个新的 Ruby on Rails (3.1) 项目。他们的要求之一是有一个搜索引擎,该引…

贵在坚持 2024-12-09 04:35:33 1 0

解析二进制文件时出错...(主要是 PDF)

我正在尝试使用 Apache Tika 通过对二进制文件使用 ByteArrayInputStream 来解析 pdf 文件...并且开始出现某些 pdf 文件的错误,并且对于某些文件来说…

半步萧音过轻尘 2024-12-05 17:12:35 0 0

尝试覆盖 Apache Tika 0.9 从 PDFBOX 1.4.0 到 PDFBOX 1.6.0 的依赖关系

org.apache.tika tika-parsers 0.9 我试图在下面添加这个依赖项,而不是在 tika 的依赖项之上,以覆盖 Tika 对 PDFBOX 1.6.0 的依赖项,但它不起作用…

葬花如无物 2024-12-05 16:17:42 0 0

解析二进制文件时出错

将 PDFBOX 版本升级到 1.6.0 后,我尝试使用 Apache Tika 解析 pdf 文件...并且我开始在少数 pdf 文件中收到此错误。 有什么建议吗? java.io.IOExcep…

记忆で 2024-12-05 11:23:47 1 0

使用 Apache Tika 提取元数据并存储到 HashMap 中

我正在尝试使用 apache tika 提取元数据,然后放入 HashMap 中。但是我的代码只获取键,而不是该键的值。例如。它只存储标题(作为键),但不存储其值…

网名女生简单气质 2024-12-04 20:29:00 2 0

如何将 Tika 集成到我的 Lucene 项目中?

我想将 Apache Tika 集成到我的 java 项目中。我需要从不同的文件格式(excel、doc、ppt 等)获取文本 经过一番阅读后,我了解到构建 tika 的唯一方法…

陈独秀 2024-12-03 03:55:55 3 0

使用 tika 自定义 xpath 表达式

我正在尝试为 tika 构建自定义 xpath contentHandler 来识别复杂的 xpath 表达式, 通过使用 org/apache/tika/sax/BodyContentHandler.java 中的代码…

烧了回忆取暖 2024-12-01 10:36:29 0 0

使用 Apache tika 获取 MimeType 子类型

我需要获取 iana.org MediaType 而不是 application/zip 或 application/x-tika-msoffice 等文档,例如 odt、ppt、pptx、xlsx 等。 如果您查看 mimety…

东风软 2024-11-30 10:02:44 1 0

tika为包含大量表格的pdf返回错误的文本行

我正在使用 tika 从包含大量表格的 pdf 文件中提取文本。 java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf 它返回一些…

尴尬癌患者 2024-11-29 12:54:51 0 0

使用 Solr 提取 PDF 元数据时出错

我正在使用 Solr 3.3,我正在尝试从 PDF 文件中提取元数据并为其建立索引。我使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。以下是我的…

一紙繁鸢 2024-11-27 06:35:58 2 0

如何为几种文档类型正确配置 Apache Tika?

我已经使用 Tika 一段时间了,我知道应该仅使用 Tika 外观以及代表 org/apache/tika/mime/tika-mimetypes.xml 文件的默认或自定义 TikaConfig 。 我的…

秋千易 2024-11-26 02:28:47 0 0

验证文件的完整性

验证这些文件的完整性的步骤是什么? doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm 或至少其中一些。通常在上传到内容存储库时。 我猜…

鲜血染红嫁衣 2024-11-26 01:22:04 4 0

在 Solr 1.4.1 和 1.4.1 上获取 /solr/update/extract 的 404蒂卡0.4

我已成功安装 Solr 1.4.1,但无法让 Tika 0.4(包含在 contrib/extraction 中)正常工作。尝试访问 http://localhost:8080/solr/ss/ 时出现 404 错误…

相思碎 2024-11-25 21:55:19 2 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文