当前位置：文江博客话题详情

file inputstream Java apache-tika

Apache Tika 和文件访问而不是 Java 输入流

发布于 2024-11-07 21:03:22 字数 623 浏览 9 评论 0原文

我希望能够创建一个新的 Tika 解析器来从文件中提取元数据。我们已经在使用 Tika，并且元数据提取将始终如一地完成。

我认为我遇到了 Tika 的这个问题/增强请求：

允许传递文件或解析器的内存缓冲区

我有一个控制台 C++ 可执行文件，它接受输入上的文件路径，然后输出它找到的元数据，每行由名称/值对组成。
C++ 代码依赖于在访问数据时需要文件路径的库。用 Java 重写这个可执行文件是不可能的。我认为将其插入 Tika 会相当容易。但是 Tika 解析器需要使用 Java，并且需要重写的 Tika 解析器方法需要一个开放的输入流：

void parse(InputStream stream, ContentHandler handler, Metadatametadata, ParseContext context)

所以我想我唯一的解决方案是获取输入流并将其写入临时文件，然后处理写入的文件，最后清理该文件。我讨厌弄乱临时文件，然后可能不得不担心临时文件的清理，如果出现问题并且它不会被删除。

有没有人有一个聪明的主意如何干净地处理这样的事情？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

维持三分热 2024-11-14 21:03:22

有 TikaInputStream 应该有所帮助。它处理包装文件或输入流，并根据解析器的要求在内部进行转换。它会根据您的需要执行所有临时文件位。

一些 Java 解析器已经在使用它，因为它们需要文件而不是输入流。更重要的是，拥有文件的用户可以将其传递给包装为 InputStream 的解析器，解析器可以根据需要将其读取为 File 或 InputStream。

因此，我建议您将 InputStream 转换为 TikaInputStream （如果它已经是一个，则只是一个转换），然后获取该文件并将其传递给您的 c++。

回复收藏 0 原文

嗫嚅 2024-11-14 21:03:22

如果我理解正确并假设您使用 Runtime.exec 启动 C++ 程序，您可以将 Process 的标准输出流解析为 InputStream > 蒂卡想要的。那行得通吗？

回复收藏 0 原文

~没有更多了~

关于作者

原谅过去的我

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

15077827184

文章 0 评论 0

遗失的美好

文章 0 评论 0

离不开的别离

文章 0 评论 0

3857621955

文章 0 评论 0

懒猫

文章 0 评论 0

洋洋洒洒

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文