使用 Tika 从 .tex 文件中提取文本

发布于 2024-10-22 03:37:44 字数 528 浏览 7 评论 0原文

如何使用 Apache Tika 从 .tex 文件中提取文本？示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika 能够正确检测内容类型为 application/x-tex，但不会从中提取任何内容。

我尝试了该命令

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

以及以下代码片段：

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

原文

How do I extract text from a .tex file using Apache Tika? An example file is at http://www.tug.org/texshowcase/EulerGibbsDuhem.tex

Tika is able to correctly detect the content type as application/x-tex but does not extract anything from it.

I tried the command

java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex

and also the following code snippet:

File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

想念有你 2024-10-29 03:37:44

Tika 支持检测 .tex 文件扩展名，但目前还没有解析器，抱歉。

如果您可以找到一个好的 Java 库（最好是 Apache 许可的）来解析 .tex 文件，那么我建议您在 Tika JIRA 中打开一个新的增强请求（https://issues.apache.org/jira/browse/TIKA））并请求一个基于该库的 Tex 解析器。

回复收藏 0 原文

~没有更多了~

关于作者

梅倚清风

暂无简介

文章

27 人气

关注发私信

燃烧我的卡路李先生

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

qq_IklFPL

文章 0 评论 0

关注

迷途知返

文章 0 评论 0

关注

深海不蓝

文章 0 评论 0

友情链接

文江博客

使用 Tika 从 .tex 文件中提取文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

使用 Tika 从 .tex 文件中提取文本

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。