C/C++ Apache Tika 的替代品

发布于 2024-11-11 17:42:09 字数 245 浏览 2 评论 0原文

我正在寻找基于 Java 的 Apache Tika 框架的 C/C++ 替代方案。具体来说,我正在一个框架下搜索文件元数据和结构化文本提取。经过一些在线搜索和浏览后,我拥有的最接近的是 GNU libextractor 和一堆解析文档以提取文本数据的单独文件过滤器(pdftoext、xls2csv ..etc)

任何人都可以推荐一个好的库吗可以与阿帕奇的蒂卡媲美吗?

谢谢

I am looking for a C/C++ alternative for Apache Tika framework which is Java based. Specifically, I am searching for file meatadata and structured text extraction all under one framework. After some online searching and browsing the closest thing I have is GNU libextractor and a bunch of individual file filters that parse documents to extract text data (pdftoext, xls2csv ..etc)

Can anyone please recommend a good library comparable to Apache's Tika ?

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

梦醒灬来后我 2024-11-18 17:42:09

KDE 提供了一个名为 KFileMetaData 他们内部将其用于文件索引器。

它使用C++、Qt5并支持大多数基本格式,例如ms-office-2007、odfs、pdf、图像、视频、音频和电子书。

KDE provides a library called KFileMetaData which they internally use for their file indexer.

It uses C++, Qt5 and supports most of the basic formats such as - ms-office-2007, odfs, pdfs, images, video, audio and ebooks.

甲如呢乙后呢 2024-11-18 17:42:09

Tika 有一个网络服务器模式,所以你总是可以使用它启动 Tika,然后从你的 C++ 代码向它发送请求?

或者,Tika 有 CLI 模式,因此您可以每次启动一个新的 Tika 进程并从管道读取数据。

Tika has a network server mode, so you could always start Tika using that and then send it requests from your C++ code?

Alternately, Tika has a CLI mode, so you could fire off a new Tika process each time and read the data from the pipe.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文