如何利用以下 ECM 技术 - 比较

发布于 2024-10-19 15:07:25 字数 727 浏览 10 评论 0原文

我有一个理论问题。我有大量各种格式的文档（ODS、MS Office、pdf、html），我想实现 ECM 系统，它不是文档管理系统，而是保存文档元数据和数据（各种语言）的系统以统一的方式（xhtml）进入文件系统和数据库（仅元数据），并进行数据处理（索引、搜索）。

您将使用哪些技术以及将如何进行？这些是我的选择：

仅使用 Apache Tika - 解析这些文档并将元数据和数据提取为 xhtml 格式，然后使用 Lucene 或 Solr 进行索引和全文（最大的缺点是数据库持久性 - 元数据变化很大）

仅将 Apache Solr 与 Tika < a href="http://wiki.apache.org/solr/UpdateRichDocuments" rel="nofollow">解析器 - 我没有这方面的经验。它是否支持像 Apache Nutch 这样的数据库集成？

然后是 Apache UIMA 项目 - 很难找出幕后发生的事情

使用一些已经使用 Apache Tika（alfresco、apache jackrabbit）的 CMS - 但我对它们没有太多经验。无论如何，我确信他们已经解决了 Apache Tika 本身无法解决的问题，例如（doc 与 docx 或不同的元数据类型）。

从 Apache Tika 获得 xhtml 格式后，我还可以使用本机 XML 数据库，例如 eXist db，但我不确定这是一个好的选择，因为这些文档的结构相当扁平。 XML 数据库用于更分层的文档持久性。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绿光 2024-10-26 15:07:25

如果您需要“开箱即用”的解决方案，您可以考虑使用像 Camel 这样的集成框架，并建立一个 Camel 路由来从文件中提取实体（使用 tika），并通过 jdbc 将它们迁移到您的数据库。否则，这听起来像是一个典型的数据挖掘任务，从原始源数据开始，以提取的实体结束。

回复收藏 0 原文

~没有更多了~

关于作者

懷念過去

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

如何利用以下 ECM 技术 - 比较

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如何利用以下 ECM 技术 - 比较

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。