第 2 页 - apache-tika

投稿关注

apache-tika

文章 0 浏览 3

使用 Solr 提取 PDF 元数据时出错

我正在使用 Solr 3.3，我正在尝试从 PDF 文件中提取元数据并为其建立索引。我使用 DataImportHandler 和 TikaEntityProcessor 来添加文档。以下是我的…

一紙繁鸢 2024-11-27 06:35:58 3 0

如何为几种文档类型正确配置 Apache Tika？

我已经使用 Tika 一段时间了，我知道应该仅使用 Tika 外观以及代表 org/apache/tika/mime/tika-mimetypes.xml 文件的默认或自定义 TikaConfig 。我的…

秋千易 2024-11-26 02:28:47 1 0

验证文件的完整性

验证这些文件的完整性的步骤是什么？ doc,docx,docm,odt,rtf,pdf,odf,odp,xls,xlsx,xlsm,ppt,pptm 或至少其中一些。通常在上传到内容存储库时。我猜…

鲜血染红嫁衣 2024-11-26 01:22:04 5 0

在 Solr 1.4.1 和 1.4.1 上获取 /solr/update/extract 的 404蒂卡0.4

我已成功安装 Solr 1.4.1，但无法让 Tika 0.4（包含在 contrib/extraction 中）正常工作。尝试访问 http://localhost:8080/solr/ss/ 时出现 404 错误…

相思碎 2024-11-25 21:55:19 2 0

Solr CEL/Tika 输出的格式是什么？以及如何修复它？

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储，并检查了它。以下是示例 DOC 文件的结果：是一家移动用户界面 (UI) 软件开发公司…

前事休说 2024-11-25 16:37:07 2 0

使用 Solr 为 PDF 建立索引

谁能给我指点教程。我使用 Solr 的主要经验是索引 CSV 文件。但我找不到任何简单的说明/教程来告诉我需要做什么来索引 pdf。我已经看到了这个： htt…

此刻的回忆 2024-11-24 04:40:56 5 0

Solr：数据导入处理程序和 solr 单元

是否可以使用 solr 单元通过数据导入处理程序来索引丰富的文档（pdf、office）...。我使用solr 3.2。谢谢。…

热血少△年 2024-11-19 19:20:12 3 0

使用 TIKA 从 URL 中提取文本

是否可以使用 Tika 从 URL 中提取文本？任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文档？…

尐籹人 2024-11-19 16:05:29 2 0

Apache Tika：解析文本文件省略了最后一部分？

我正在尝试使用 Tika 解析纯文本文件，但变得不一致行为。更具体地说，我定义了一个简单的处理程序，如下所示： public class MyHandler extends De…

旧人 2024-11-19 00:20:05 3 0

XML 解析器 +索引数据

我需要使用 Lucene 索引一些 xml 文档，但在此之前，我需要解析这些 XML 并在其标签内提取一些信息。 XML 如下所示： Info Different words,and phras…

归属感 2024-11-16 04:16:19 3 0

Solr Cell / ExtractingRequestHandler 无法解析某些 *.doc 文件

我需要索引用户上传的 doc/docx/pdf 文件的内容，并为此使用 Solr (1.4.1) ExtractingRequestHandler 组件 (817165)。如果这很重要，我不会请求从中建…

无名指的心愿 2024-11-15 17:07:55 4 0

向 Apache Tika 添加语言配置文件

请任何设法做到这一点的人解释一下如何做到这一点:-) 我是否需要获取我需要添加的语言的 n-gram 文件？是否需要创建 tika.language.override.propert…

紧拥背影 2024-11-12 00:06:51 5 0

C/C++ Apache Tika 的替代品

我正在寻找基于 Java 的 Apache Tika 框架的 C/C++ 替代方案。具体来说，我正在一个框架下搜索文件元数据和结构化文本提取。经过一些在线搜索和浏览后…

獨角戲 2024-11-11 17:42:09 3 0

Apache Tika 和解析文档时的字符限制

有人可以帮我解决一下吗？可以这样完成 Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); 但是如果你不直接使用Tika，就像这样： Co…

阳光下慵懒的猫 2024-11-09 19:40:55 4 0

如何在网络应用程序中集成数据库搜索和 pdf 搜索？

我有一个带有自定义搜索引擎的 jsp Web 应用程序。搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。举例来说，每个文档记录具有三个字段…

渔村楼浪 2024-11-08 02:14:16 4 0

共 3 页
上一页
1
2
3
下一页

友情链接

文江博客

apache-tika

使用 Solr 提取 PDF 元数据时出错

如何为几种文档类型正确配置 Apache Tika？

验证文件的完整性

在 Solr 1.4.1 和 1.4.1 上获取 /solr/update/extract 的 404蒂卡0.4

Solr CEL/Tika 输出的格式是什么？以及如何修复它？

使用 Solr 为 PDF 建立索引

Solr：数据导入处理程序和 solr 单元

使用 TIKA 从 URL 中提取文本

Apache Tika：解析文本文件省略了最后一部分？

XML 解析器 +索引数据

Solr Cell / ExtractingRequestHandler 无法解析某些 *.doc 文件

向 Apache Tika 添加语言配置文件

C/C++ Apache Tika 的替代品

Apache Tika 和解析文档时的字符限制

如何在网络应用程序中集成数据库搜索和 pdf 搜索？

热门标签

推荐作者

missyouangeled

三生一梦

压抑⊿情绪

天涯离梦残月幽梦

指尖微凉心微凉

☆獨立☆

友情链接