从pdf中提取段落
我正在对一本 pdf 电子书进行主题建模,需要逐段提取文本。为此,我使用 apache pdfBox,它可以有效地从 pdf 中提取文本。
PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);
但我无法单独提取段落。该工具提供了一种设置段落开始/结束标识符的方法,但我需要知道为此的段落分隔符标识符。
有没有办法做到这一点,或者是否有其他可用的工具可以有效地进行段落提取?
I'm doing topic modelling on a pdf e-book and need to extract text paragraph by paragraph. For this I use apache pdfBox which is efficiently extract text from pdf.
PDFParser parser;
PDFTextStripper pdfStrip = null;
parsedText = pdfStrip.getText(pdDoc);
But I cannot extract paragraphs separately. This tool provides a way to set the paragraph start/end identifier, but I need to know the paragraph break identifier for this.
Is there a way to do this, or if there some other tool available which can do paragraph extraction effectively?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
PdfNitro 是我发现的用于提取段落的最佳工具。
该工具的唯一问题是它将分页符视为段落符,否则它效果很好。该工具提供 14 天试用版来测试。
PdfNitro is best tool I found for extracting paragraph.
The only problem with this tool is it considers a page-break as a paragraph break, otherwise it works well. This tool is available in 14 days trial version to test.