apache-tika

apache-tika

文章 0 浏览 6

Solr CEL/Tika 输出的格式是什么?以及如何修复它?

我正在使用 Solr 来索引 DOC、DOCX 和 PDF 文件。我已启用文本存储,并检查了它。以下是示例 DOC 文件的结果: 是一家移动用户界面 (UI) 软件开发公司…

前事休说 2024-11-25 16:37:07 5 0

使用 Solr 为 PDF 建立索引

谁能给我指点教程。 我使用 Solr 的主要经验是索引 CSV 文件。但我找不到任何简单的说明/教程来告诉我需要做什么来索引 pdf。 我已经看到了这个: htt…

此刻的回忆 2024-11-24 04:40:56 9 0

Solr:数据导入处理程序和 solr 单元

是否可以使用 solr 单元通过数据导入处理程序来索引丰富的文档(pdf、office)...。 我使用solr 3.2。 谢谢。…

热血少△年 2024-11-19 19:20:12 9 0

使用 TIKA 从 URL 中提取文本

是否可以使用 Tika 从 URL 中提取文本?任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文档?…

尐籹人 2024-11-19 16:05:29 5 0

Apache Tika:解析文本文件省略了最后一部分?

我正在尝试使用 Tika 解析纯文本文件,但变得不一致 行为。 更具体地说,我定义了一个简单的处理程序,如下所示: public class MyHandler extends De…

旧人 2024-11-19 00:20:05 7 0

XML 解析器 +索引数据

我需要使用 Lucene 索引一些 xml 文档,但在此之前,我需要解析这些 XML 并在其标签内提取一些信息。 XML 如下所示: Info Different words,and phras…

归属感 2024-11-16 04:16:19 8 0

Solr Cell / ExtractingRequestHandler 无法解析某些 *.doc 文件

我需要索引用户上传的 doc/docx/pdf 文件的内容,并为此使用 Solr (1.4.1) ExtractingRequestHandler 组件 (817165)。如果这很重要,我不会请求从中建…

无名指的心愿 2024-11-15 17:07:55 10 0

向 Apache Tika 添加语言配置文件

请任何设法做到这一点的人解释一下如何做到这一点:-) 我是否需要获取我需要添加的语言的 n-gram 文件? 是否需要创建 tika.language.override.propert…

紧拥背影 2024-11-12 00:06:51 9 0

C/C++ Apache Tika 的替代品

我正在寻找基于 Java 的 Apache Tika 框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件元数据和结构化文本提取。经过一些在线搜索和浏览后…

獨角戲 2024-11-11 17:42:09 7 0

Apache Tika 和解析文档时的字符限制

有人可以帮我解决一下吗? 可以这样完成 Tika tika = new Tika(); tika.setMaxStringLength(10*1024*1024); 但是如果你不直接使用Tika,就像这样: Co…

阳光下慵懒的猫 2024-11-09 19:40:55 8 0

如何在网络应用程序中集成数据库搜索和 pdf 搜索?

我有一个带有自定义搜索引擎的 jsp Web 应用程序。 搜索引擎基本上构建在 SQL Server 数据库的“文档”表之上。 举例来说,每个文档记录具有三个字段…

渔村楼浪 2024-11-08 02:14:16 9 0

Apache Tika 和文件访问而不是 Java 输入流

我希望能够创建一个新的 Tika 解析器来从文件中提取元数据。我们已经在使用 Tika,并且元数据提取将始终如一地完成。 我认为我遇到了 Tika 的这个问题…

原谅过去的我 2024-11-07 21:03:22 8 0

如何使用 Solr 的 FileListEntityProcessor 在搜索结果中显示文件名

我正在尝试扫描目录中的所有 pdf/doc 文件。这工作正常,我可以扫描所有文档。 我想做的下一件事也是接收搜索结果中文件的文件名。但是文件名永远不会…

莫相离 2024-11-07 04:22:38 7 0

不从远程索引或提取文档 (.pdf .doc)

我正在使用 Solr 3.1、Apache Tika 0.9 和 Solrnet 0.3.1 来索引 文档,如 .doc 和 .pdf 文件。 我已成功使用此方法在本地索引并提取文档 但是 Startu…

星星的轨迹 2024-11-04 22:17:46 9 0

是否可以使用 Apache Tika 按页提取 word/pdf 文件中的文本?

我能找到的所有文档似乎都表明我只能提取整个文件的内容。但我需要单独提取页面。我需要为此编写自己的解析器吗?我是否缺少一些明显的方法?…

漫雪独思 2024-11-04 06:54:27 6 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文