apache-tika

投稿关注

文章 0 浏览 6

在Docker文件中启动并运行Apache Tika

我想在Docker容器中安装并运行Apache Tika，以便为此我需要在Docker文件中指定所有这些，如何准确地执行此操作？…

谈情不如逗狗 2025-02-10 01:41:21 1 0

如何将apche tika服务器用于ner

我正在检查tika的NER任务，然后运行 ner示例。我可以通过击中“ noreforlrer”>端点： curl -T test.txt http://localhost:9998/meta --header "Accep…

℡寂寞咖啡 2025-02-08 14:23:46 1 0

Apache Tika性能影响因Tesseract引起的

我们正在使用Tika 2.4.0，并且扫描数百个文件以从文件中提取内容，我们将文件组合（如PDF，Documents（docx）和纯文本（.txt）文件）。 PDF和DOCX只能…

南…巷孤猫 2025-02-03 01:34:19 4 0

处理PDF文件时返回500个状态代码

代码： dd= parser.from_file(r"file_path") tika中的第554行 resp = verbFn(serviceUrl, encodedData, **effectiveRequestOptions) 。我正在系统上…

千纸鹤带着心事 2025-01-31 22:14:56 3 0

为什么我无法使用Lucee通过Apache Tika提取文本？

我想通过Lucee 5+（5.2.9）从PDF，DOCX等提取文本，但不幸的是我获得了空的结果集。我已经使用了几个 apache tika tika tika版本Java 1.8.0）可能适合…

深海不蓝 2025-01-30 07:22:45 4 0

如何进一步处理Tika / pdfbox无法解析但可以通过Evince / Libre Office Draw的越野车 /错误的PDF？

我的程序是使用Tika 2.24阅读文档以提取其内容。然而，尽管Evince，Libre Office Draw甚至GIMP都可以打开它们，但PDFBox无法处理一些PDF（也许是越野…

半世晨晓 2025-01-28 19:31:49 4 0

无法使用.NET从Tika API获取图像内容

当我们从Postman应用程序调用时，我们将从Tika API（2.3.0）中获取图像内容。但是，当我们从.NET代码调用时，相同的呼叫会返回其他内容。 postman api…

思念绕指尖 2025-01-24 12:30:14 2 0

Apache Tika无法提取SVG文件的宽度和高度

我正在使用Apache Tika库来提取元数据，以获取宽度和高度等文件。这是我看到的SVG文件的代码段 public void fileMetadata(final File file) { FileMet…

Hello爱情风 2025-01-23 10:08:36 2 0

旧MS文档格式的Apache Tika解析器错误

我们使用apache tika解析器进行文档验证，并在更新到版本2.3.0之后，我们的回归测试因旧的MS文档类型（PPT，DOC，PUB等）而失败，并通过 tika.detect…

请持续率性 2025-01-17 23:04:16 3 0

Apache Tika 缺少许多元数据键值对

我正在尝试使用 Apache Tika 获取 JAVA 文件的元数据。获取该文件的代码如下所示， import java.io.File; import java.io.FileInputStream; import ja…

不忘初心 2025-01-16 14:09:50 3 0

Tika LanguageDetection 给出错误“没有可用的语言检测器”；

Tika 2.2.3，简单代码 public static void main(String[] args) throws IOException { LanguageDetector detector =LanguageDetector.getDefaultLangu…

夏夜暖风 2025-01-14 02:32:46 6 0

在远程 glassfish 上解析（使用 Tika）

我正在使用 Tika 解析器将我的文件索引到 Solr 中。我创建了自己的解析器（它扩展了 XMLParser）。它使用我自己的模仿类型。我创建了一个 jar 文件，…

败给现实 2025-01-07 22:26:21 5 0

如何配置 Apache Tika 和 Apache Solr 来索引和搜索 pdf 文件目录？

如何使 Apache Tika 索引 PDF 和文本文件（包括子目录）的目录并将其提交到 Apache Solr，以便我可以拥有该目录内容的搜索引擎？任何建议都值得赞赏…

故笙诉离歌 2025-01-06 08:06:17 7 0

Apache Tika：仅解析元数据而不提取内容

我正在使用 Apache Tika 从文档中提取元数据。我最感兴趣的是建立一个基本的都柏林核心，如作者、标题、日期等。我对文档的内容根本不感兴趣。目前我…

紧拥背影 2025-01-03 13:37:19 3 0

在 nutch 插件中使用 tika

简而言之，我正在实现一个插件，它将获取网页内容并以特殊方式处理它们。我的主要问题是我想将网页转换为纯文本以便能够处理，我读到tika工具包可以…

醉酒的小男人 2025-01-03 08:52:40 5 0

共 6 页
1
2
3
4
5
下一页

友情链接

文江博客