使用 Tika 从 .tex 文件中提取文本

发布于 2024-10-22 03:37:44 字数 528 浏览 6 评论 0原文

如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型为 application/x-tex,但不会从中提取任何内容。

我尝试了该命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

以及以下代码片段:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

How do I extract text from a .tex file using Apache Tika? An example file is at http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika is able to correctly detect the content type as application/x-tex but does not extract anything from it.

I tried the command

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

and also the following code snippet:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

想念有你 2024-10-29 03:37:44

Tika 支持检测 .tex 文件扩展名,但目前还没有解析器,抱歉。

如果您可以找到一个好的 Java 库(最好是 Apache 许可的)来解析 .tex 文件,那么我建议您在 Tika JIRA 中打开一个新的增强请求(https://issues.apache.org/jira/browse/TIKA) )并请求一个基于该库的 Tex 解析器。

Tika supports detecting the .tex file extension, but there isn't a parser for it yet, sorry.

If you can find a good Java library (ideally Apache Licensed) for parsing .tex files, then I'd suggest you open a new enhancement request in the Tika JIRA (https://issues.apache.org/jira/browse/TIKA) and request a Tex Parser based on that library.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文