apache-tika

apache-tika

文章 0 浏览 6

在Docker文件中启动并运行Apache Tika

我想在Docker容器中安装并运行Apache Tika,以便为此我需要在Docker文件中指定所有这些,如何准确地执行此操作?…

谈情不如逗狗 2025-02-10 01:41:21 1 0

如何将apche tika服务器用于ner

我正在检查tika的NER任务,然后运行 ner示例。我可以通过击中“ noreforlrer”>端点: curl -T test.txt http://localhost:9998/meta --header "Accep…

℡寂寞咖啡 2025-02-08 14:23:46 1 0

Apache Tika性能影响因Tesseract引起的

我们正在使用Tika 2.4.0,并且扫描数百个文件以从文件中提取内容,我们将文件组合(如PDF,Documents(docx)和纯文本(.txt)文件)。 PDF和DOCX只能…

南…巷孤猫 2025-02-03 01:34:19 4 0

处理PDF文件时返回500个状态代码

代码: dd= parser.from_file(r"file_path") tika中的第554行 resp = verbFn(serviceUrl, encodedData, **effectiveRequestOptions) 。 我正在系统上…

千纸鹤带着心事 2025-01-31 22:14:56 3 0

为什么我无法使用Lucee通过Apache Tika提取文本?

我想通过Lucee 5+(5.2.9)从PDF,DOCX等提取文本,但不幸的是我获得了空的结果集。我已经使用了几个 apache tika tika tika版本Java 1.8.0)可能适合…

深海不蓝 2025-01-30 07:22:45 4 0

如何进一步处理Tika / pdfbox无法解析但可以通过Evince / Libre Office Draw的越野车 /错误的PDF?

我的程序是使用Tika 2.24阅读文档以提取其内容。 然而,尽管Evince,Libre Office Draw甚至GIMP都可以打开它们,但PDFBox无法处理一些PDF(也许是越野…

半世晨晓 2025-01-28 19:31:49 4 0

无法使用.NET从Tika API获取图像内容

当我们从Postman应用程序调用时,我们将从Tika API(2.3.0)中获取图像内容。但是,当我们从.NET代码调用时,相同的呼叫会返回其他内容。 postman api…

思念绕指尖 2025-01-24 12:30:14 2 0

Apache Tika无法提取SVG文件的宽度和高度

我正在使用Apache Tika库来提取元数据,以获取宽度和高度等文件。这是我看到的SVG文件的代码段 public void fileMetadata(final File file) { FileMet…

Hello爱情风 2025-01-23 10:08:36 2 0

旧MS文档格式的Apache Tika解析器错误

我们使用apache tika解析器进行文档验证,并在更新到版本2.3.0之后,我们的回归测试因旧的MS文档类型(PPT,DOC,PUB等)而失败,并通过 tika.detect…

请持续率性 2025-01-17 23:04:16 3 0

Apache Tika 缺少许多元数据键值对

我正在尝试使用 Apache Tika 获取 JAVA 文件的元数据。获取该文件的代码如下所示, import java.io.File; import java.io.FileInputStream; import ja…

不忘初心 2025-01-16 14:09:50 3 0

Tika LanguageDetection 给出错误“没有可用的语言检测器”;

Tika 2.2.3,简单代码 public static void main(String[] args) throws IOException { LanguageDetector detector =LanguageDetector.getDefaultLangu…

夏夜暖风 2025-01-14 02:32:46 6 0

在远程 glassfish 上解析(使用 Tika)

我正在使用 Tika 解析器将我的文件索引到 Solr 中。我创建了自己的解析器(它扩展了 XMLParser)。它使用我自己的模仿类型。 我创建了一个 jar 文件,…

败给现实 2025-01-07 22:26:21 5 0

如何配置 Apache Tika 和 Apache Solr 来索引和搜索 pdf 文件目录?

如何使 Apache Tika 索引 PDF 和文本文件(包括子目录)的目录并将其提交到 Apache Solr,以便我可以拥有该目录内容的搜索引擎? 任何建议都值得赞赏…

故笙诉离歌 2025-01-06 08:06:17 7 0

Apache Tika:仅解析元数据而不提取内容

我正在使用 Apache Tika 从文档中提取元数据。我最感兴趣的是建立一个基本的都柏林核心,如作者、标题、日期等。我对文档的内容根本不感兴趣。目前我…

紧拥背影 2025-01-03 13:37:19 3 0

在 nutch 插件中使用 tika

简而言之,我正在实现一个插件,它将获取网页内容并以特殊方式处理它们。 我的主要问题是我想将网页转换为纯文本以便能够处理,我读到tika工具包可以…

醉酒的小男人 2025-01-03 08:52:40 5 0
更多

推荐作者

十二

文章 0 评论 0

飞烟轻若梦

文章 0 评论 0

OPleyuhuo

文章 0 评论 0

wxb0109

文章 0 评论 0

旧城空念

文章 0 评论 0

-小熊_

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文