当前位置：文江博客话题详情

PDF ms-word

在 pdf 中爬行

发布于 2024-09-02 09:20:42 字数 156 浏览 3 评论 0 原文

我正在开发一个工具，可以搜索用户在给定网站上输入的关键字。我的问题是，它仅在 html/网页上搜索关键字，而不在网站上找到的 PDF/MS-Word 文件上搜索关键字。

谁能给我推荐一些 api/工具或者提供可以从给定的在线 PDF/MS-Word/Text 文件中搜索文本的代码？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

梦屿孤独相伴 2024-09-09 09:20:43

在 JVM 上运行的任何内容中进行开发，您可能最好使用 POI 进行 MS Office 文档解析和 PDFBox 、 JPedal 或 PDF Clown 用于解析 .pdf。

对于一般索引，您不会错过 lucene 和 nutch。

回复收藏 0 原文

屌丝范 2024-09-09 09:20:42

您可以对 Word 文件使用 Antiword 。

pdftotext 可用于 pdf 文件。

这两个命令都可以通过 apt 获得：
sudo apt-get install xpdf-utils antiword

回复收藏 0 原文

~没有更多了~

关于作者

岁月打碎记忆

暂无简介

0 文章

0 评论

993 人气

关注发私信

qq_FjTq5B

文章 0 评论 0

关注

18273202778

文章 0 评论 0

关注

WordPress小学生

文章 0 评论 0

关注

〃温暖了心ぐ

文章 0 评论 0

关注

迷乱花海

文章 0 评论 0

关注

niuniu

文章 0 评论 0

友情链接

文江博客

在 pdf 中爬行

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签