在 Hadoop MapReduce 中解析 PDF 文件

发布于 2025-01-08 18:29:42 字数 202 浏览 1 评论 0原文

我必须在 Hadoop 的 MapReduce 程序中解析 HDFS 中的 PDF 文件。所以我从 HDFS 获取 PDF 文件作为输入分割，它必须被解析并发送到 Mapper 类。为了实现这个InputFormat，我浏览了这个链接。如何解析这些输入拆分并将其转换为文本格式？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦行七里 2025-01-15 18:29:42

在 Hadoop 中处理 PDF 文件可以通过扩展 FileInputFormat 类。让扩展它的类成为 WholeFileInputFormat。在 WholeFileInputFormat 类中，您重写 getRecordReader() 方法。现在，每个 pdf 都将作为单独输入拆分接收。然后可以解析这些单独的分割以提取文本。此链接提供了一个了解如何扩展 FileInputFormat 的清晰示例。

回复收藏 0 原文

卖梦商人 2025-01-15 18:29:42

这取决于你的分裂。我认为（可能是错误的）您需要将每个 PDF 作为一个整体来解析它。有 Java 库可以做到这一点，Google 知道它们在哪里。

鉴于此，您需要使用一种方法，在准备解析文件时将文件作为一个整体。假设您想在映射器中执行此操作，则需要一个将整个文件传递给映射器的读取器。您可以编写自己的阅读器来执行此操作，或者可能已经有一个阅读器了。您可以构建一个扫描 PDF 目录的阅读器，并将每个文件的名称作为键传递到映射器中，将内容作为值传递。

回复收藏 0 原文

~没有更多了~