当前位置：文江博客话题详情

如何从 LaTeX 文档中提取重要的文本内容

发布于 2024-10-14 21:30:10 字数 248 浏览 5 评论 0原文

我需要从用 LaTeX 编写的论文文档中提取纯文本内容，以进行自动反剽窃检查。我只知道“草稿”选项，但这还不够。

我应该省略：

图像、
表格和其他图形、
方程、
标题和脚注。

删除所有引用也很好。输出应该是纯文本文件（UTF-8 编码）。

有什么简单的方法可以做到这一点吗？我真的不喜欢手动逐页复制它。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

宁愿没拥抱 2024-10-21 21:30:10

您可以尝试使用 comment 包（或十几个替代方案之一）将方程、图形、表格等转换为注释环境，并使用 \renewcommand\footnote[1]{} 删除脚注。 \pagestyle{empty} 应该删除页面标题等，因此在结果上运行 pdftotext 应该接近您想要的结果。

回复收藏 0 原文

回忆那么伤 2024-10-21 21:30:10

您可以使用 pandoc 之类的文档转换器，或者使用 Calibre。

回复收藏 0 原文

两个我 2024-10-21 21:30:10

通常你想要对文本进行一些 LaTeX 处理，假设你有

\newcommand*{\SO}{StackOverflow\index{StackOverflow}\xspace}
...
我花了很多时间在\SO，废话
废话....

当文本段落包含任何宏时，仅过滤掉此处的文本段落将不会给出与预期结果类似的文本。

因此，尝试直接从 *.tex 文件中提取内容通常会导致结果有很多不足之处。因此，通常最好处理乳胶加工的输出。我建议将 Latex 转换为 html，然后从 html 转换为文本。您可能需要一些手动清理，但我认为它应该相对接近。

回复收藏 0 原文

神仙妹妹 2024-10-21 21:30:10

虽然已经提到了 detex，但是还有另一个项目旨在改进它。它的名字叫opendetex，看看吧！

回复收藏 0 原文

梦里寻她 2024-10-21 21:30:10

是的：untex，一个简单的 C 脚本。您还可以查看 detex。

回复收藏 0 原文

~没有更多了~

关于作者

晚雾

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

如何从 LaTeX 文档中提取重要的文本内容

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如何从 LaTeX 文档中提取重要的文本内容

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。