使用 TIKA 从 URL 中提取文本
是否可以使用 Tika 从 URL 中提取文本?任何链接将不胜感激。或者 TIKA 只能用于 pdf、word 和任何其他媒体文档?
Is it possible to extract text from URLs with Tika? Any links will be appreciated. Or TIKA is usable only for pdf, word and any other media documents?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(4)
查看文档 - 是的,可以。
示例
将向您显示此页面上的文本。
Check the documentation - yes you can.
Example
will show you the text on this page.
这是来自 lucid:
您可以使用 Tika 的
AutoDetectParser
自动处理文件的 diff 类型,而不是创建PDFParser
:This is from lucid:
Instead of creating a
PDFParser
you can use Tika'sAutoDetectParser
to automatically process diff types of files:是的,你可以这样做。这是代码。此代码使用 apache http 客户端
Yes, you can do that. Here is the code. This code uses apache http client
要从 URL 而非本地文件中提取内容,请使用以下代码:
to extract content from URL not from local file use this code: