第 3 页 - apache-tika

投稿关注

apache-tika

文章 0 浏览 3

如何判断文档是否为文章？

假设我有 X 个文档，算法/库/tika config/nekohtml 过滤器会告诉我哪些是“文章”，哪些不是，对于那些给我文章文本的文件（即没有其他周围文本））…

素染倾城色 2024-10-30 05:08:25 5 0

如何在 Java 中使用 HTML 解析器和 Apache Tika 来提取所有 HTML 标签？

我下载了 tika-core 和 tika-parser 库，但找不到将 HTML 文档解析为字符串的示例代码。我必须删除网页源的所有 html 标签。我能做些什么？如何使用 A…

臻嫒无言 2024-10-26 16:24:06 2 0

Apache Tika 编译错误

我在 debian 上编译 Apache Tika 最新版本时遇到此错误。任何帮助将不胜感激。我已从 tika.apache.org/download.html 下载了最新版本。使用 aptitude…

靖瑶 2024-10-25 23:49:39 5 0

使用 Tika 从 .tex 文件中提取文本

如何使用 Apache Tika 从 .tex 文件中提取文本？示例文件位于 http://www.tug.org/texshowcase/EulerGibbsDuhem.tex Tika 能够正确检测内容类型为 app…

梅倚清风 2024-10-22 03:37:44 7 0

如何利用以下 ECM 技术 - 比较

我有一个理论问题。我有大量各种格式的文档（ODS、MS Office、pdf、html），我想实现 ECM 系统，它不是文档管理系统，而是保存文档元数据和数据（各种…

懷念過去 2024-10-19 15:07:25 7 0

使用 Apache Jackrabbit 提取元数据

我使用过一点 Alfresco，Apache Tika 之上有一个薄抽象层，用于从文档中提取元数据。我决定只使用 Jackrabbit，因为我不需要如此强大的解决方案。但…

赠意 2024-10-19 09:42:50 9 0

使用 Apache Solr 检索提取的文本

我是 Apache Solr 的新手，我想用它来索引 pdf 文件。到目前为止，我已成功启动并运行它，现在可以搜索添加的 pdf 文件。但是，我需要能够从结果中检…

梦途 2024-10-16 19:18:59 9 0

使用java查找wma文件的mime类型

我正在使用 apache tika 来检测音频和视频文件的 mime 类型。由于某种原因，tika 将 wma 文件（Microsoft 拥有的 Windows Media Audio 格式）的 mime …

烟酒忠诚 2024-10-16 18:38:53 8 0

用Java解析文档结构

我们需要使用 Java 从给定的文本文档中获取树状结构。使用的文件类型应该是通用且开放的（rtf、odt，...）。目前我们使用 Apache Tika 解析多个文档中…

满身野味 2024-10-16 18:17:08 5 0

Solr Tika，带有样式的文本

我看过这个链接： http://www.lucidimagination.com/Community /听取专家的意见/文章/内容提取-Tika 我得到的是纯文本，没有任何来自 Tika 的 Solr 样…

梦里泪两行 2024-10-07 10:54:10 8 0

使用 Solr 用页码索引 PDF

我正在使用 ExtractingRequestHandler 通过 Solr 为 PDF 建立索引。我想显示页码以及文档中的点击次数，例如“在第 2、3 和 5 页的 bar.pdf 中找到了…

·深蓝 2024-09-30 17:13:47 6 0

使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

您可以将 ExtractingRequestHandler 和 Tika 与任何一个一起使用吗压缩文件格式（zip、tar、gz 等）来提取内容以进行索引？我使用curl 向solr 发送a…

素衣风尘叹 2024-09-28 23:11:31 6 0

如何使用 apache Solr 1.4.1 配置 Apache Tika

我想索引大量 pdf 文档。我找到了一个参考资料，表明可以使用 Apache Tika 来完成此操作，但不幸的是，我找不到任何描述我可以在 Solr 1.4.1 中配置 …

所有深爱都是秘密 2024-09-26 00:38:26 9 0

索引 pdf 文档

索引 pdf 文档的最佳方法是什么？我应该通过将 pdf 文档转换为 txt 来索引它们，还是有更好的方法来索引 pdf 文件？…

流年已逝 2024-09-24 02:34:07 6 0

使用 apache tika 从 gzip 文件中提取 xml 数据？

我正在工作一个项目，其中我需要使用 apache tika[AM NEW TO TIKA] 从 gz 文件中提取 xml（站点地图）数据。 fie 名称类似于 sitemap01.xml.gz 我可以…

多情癖 2024-09-14 13:34:09 8 0

共 3 页
上一页
1
2
3

友情链接

文江博客