apache-tika

apache-tika

文章 0 浏览 3

如何判断文档是否为文章?

假设我有 X 个文档,算法/库/tika config/nekohtml 过滤器会告诉我哪些是“文章”,哪些不是,对于那些给我文章文本的文件(即没有其他周围文本) )…

素染倾城色 2024-10-30 05:08:25 5 0

如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签?

我下载了 tika-core 和 tika-parser 库,但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么?如何使用 A…

臻嫒无言 2024-10-26 16:24:06 2 0

Apache Tika 编译错误

我在 debian 上编译 Apache Tika 最新版本时遇到此错误。任何帮助将不胜感激。 我已从 tika.apache.org/download.html 下载了最新版本。使用 aptitude…

靖瑶 2024-10-25 23:49:39 5 0

使用 Tika 从 .tex 文件中提取文本

如何使用 Apache Tika 从 .tex 文件中提取文本?示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…

梅倚清风 2024-10-22 03:37:44 7 0

如何利用以下 ECM 技术 - 比较

我有一个理论问题。我有大量各种格式的文档(ODS、MS Office、pdf、html),我想实现 ECM 系统,它不是文档管理系统,而是保存文档元数据和数据(各种…

懷念過去 2024-10-19 15:07:25 7 0

使用 Apache Jackrabbit 提取元数据

我使用过一点 Alfresco,Apache Tika 之上有一个薄抽象层,用于从文档中提取元数据。 我决定只使用 Jackrabbit,因为我不需要如此强大的解决方案。但…

赠意 2024-10-19 09:42:50 9 0

使用 Apache Solr 检索提取的文本

我是 Apache Solr 的新手,我想用它来索引 pdf 文件。到目前为止,我已成功启动并运行它,现在可以搜索添加的 pdf 文件。 但是,我需要能够从结果中检…

梦途 2024-10-16 19:18:59 9 0

使用java查找wma文件的mime类型

我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因,tika 将 wma 文件(Microsoft 拥有的 Windows Media Audio 格式)的 mime …

烟酒忠诚 2024-10-16 18:38:53 8 0

用Java解析文档结构

我们需要使用 Java 从给定的文本文档中获取树状结构。使用的文件类型应该是通用且开放的(rtf、odt,...)。目前我们使用 Apache Tika 解析多个文档中…

满身野味 2024-10-16 18:17:08 5 0

Solr Tika,带有样式的文本

我看过这个链接: http://www.lucidimagination.com/Community /听取专家的意见/文章/内容提取-Tika 我得到的是纯文本,没有任何来自 Tika 的 Solr 样…

梦里泪两行 2024-10-07 10:54:10 8 0

使用 Solr 用页码索引 PDF

我正在使用 ExtractingRequestHandler 通过 Solr 为 PDF 建立索引。我想显示页码以及文档中的点击次数,例如“在第 2、3 和 5 页的 bar.pdf 中找到了…

·深蓝 2024-09-30 17:13:47 6 0

使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

您可以将 ExtractingRequestHandler 和 Tika 与任何一个一起使用吗 压缩文件格式(zip、tar、gz 等)来提取内容以进行索引? 我使用curl 向solr 发送a…

素衣风尘叹 2024-09-28 23:11:31 6 0

如何使用 apache Solr 1.4.1 配置 Apache Tika

我想索引大量 pdf 文档。 我找到了一个参考资料,表明可以使用 Apache Tika 来完成此操作,但不幸的是,我找不到任何描述我可以在 Solr 1.4.1 中配置 …

所有深爱都是秘密 2024-09-26 00:38:26 9 0

索引 pdf 文档

索引 pdf 文档的最佳方法是什么?我应该通过将 pdf 文档转换为 txt 来索引它们,还是有更好的方法来索引 pdf 文件?…

流年已逝 2024-09-24 02:34:07 6 0

使用 apache tika 从 gzip 文件中提取 xml 数据?

我正在工作一个项目,其中我需要使用 apache tika[AM NEW TO TIKA] 从 gz 文件中提取 xml(站点地图)数据。 fie 名称类似于 sitemap01.xml.gz 我可以…

多情癖 2024-09-14 13:34:09 8 0
更多

推荐作者

胡图图

文章 0 评论 0

zt006

文章 0 评论 0

z祗昰~

文章 0 评论 0

冰葑

文章 0 评论 0

野の

文章 0 评论 0

天空

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文