从pdf中提取段落

发布于 2024-10-22 03:49:10 字数 297 浏览 2 评论 0原文

我正在对一本 pdf 电子书进行主题建模,需要逐段提取文本。为此,我使用 apache pdfBox,它可以有效地从 pdf 中提取文本。

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

但我无法单独提取段落。该工具提供了一种设置段落开始/结束标识符的方法,但我需要知道为此的段落分隔符标识符。

有没有办法做到这一点,或者是否有其他可用的工具可以有效地进行段落提取?

I'm doing topic modelling on a pdf e-book and need to extract text paragraph by paragraph. For this I use apache pdfBox which is efficiently extract text from pdf.

PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);

But I cannot extract paragraphs separately. This tool provides a way to set the paragraph start/end identifier, but I need to know the paragraph break identifier for this.

Is there a way to do this, or if there some other tool available which can do paragraph extraction effectively?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

小鸟爱天空丶 2024-10-29 03:49:10

PdfNitro 是我发现的用于提取段落的最佳工具。

该工具的唯一问题是它将分页符视为段落符,否则它效果很好。该工具提供 14 天试用版来测试。

PdfNitro is best tool I found for extracting paragraph.

The only problem with this tool is it considers a page-break as a paragraph break, otherwise it works well. This tool is available in 14 days trial version to test.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文