使用 Tika 从 .tex 文件中提取文本
如何使用 Apache Tika 从 .tex
文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika 能够正确检测内容类型为 application/x-tex
,但不会从中提取任何内容。
我尝试了该命令
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
以及以下代码片段:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
How do I extract text from a .tex
file using Apache Tika? An example file is at http://www.tug.org/texshowcase/EulerGibbsDuhem.tex
Tika is able to correctly detect the content type as application/x-tex
but does not extract anything from it.
I tried the command
java -jar tika-app-0.9.jar -t EulerGibbsDuhem.tex
and also the following code snippet:
File file = new File(fileName);
Tika tika = new Tika();
String mimeType = tika.detect(file);
pageContent = tika.parseToString(file);
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
Tika 支持检测 .tex 文件扩展名,但目前还没有解析器,抱歉。
如果您可以找到一个好的 Java 库(最好是 Apache 许可的)来解析 .tex 文件,那么我建议您在 Tika JIRA 中打开一个新的增强请求(https://issues.apache.org/jira/browse/TIKA) )并请求一个基于该库的 Tex 解析器。
Tika supports detecting the .tex file extension, but there isn't a parser for it yet, sorry.
If you can find a good Java library (ideally Apache Licensed) for parsing .tex files, then I'd suggest you open a new enhancement request in the Tika JIRA (https://issues.apache.org/jira/browse/TIKA) and request a Tex Parser based on that library.