当前位置：文江博客话题详情

algorithm text metadata bayesian

分析、分类和索引元数据

发布于 2024-07-13 20:27:37 字数 686 浏览 12 评论 0原文

我有一个大型（约 250 万条记录）图像元数据数据库。每条记录代表一个图像，并具有唯一的 ID、描述字段、以逗号分隔的关键字列表（例如每个图像 20-30 个关键字）以及一些其他字段。没有真正的数据库模式，如果不迭代每个图像并计算它们，我就无法知道数据库中存在哪些关键字。此外，元数据来自多个不同的供应商，每个供应商对于如何填写不同的字段都有自己的想法。

我想用这个元数据做一些事情，但由于我对这种算法完全陌生，我什至不知道从哪里开始寻找。

其中一些图像有一定的使用限制（以文本形式给出），但每个供应商的措辞不同，并且无法保证一致性。我想要一个简单的测试，可以应用于图像，以指示该图像是否不受限制。它不必是完美的，只要“足够好”即可。我怀疑我可以使用某种贝叶斯过滤器来实现这一点，对吗？我可以使用我知道受限制或无限制的图像语料库来训练过滤器，然后过滤器将能够对其余图像进行预测？或者还有更好的方法吗？
我还希望能够根据“关键字相似度”对这些图像进行索引，这样如果我有一张图像，我可以快速判断它与哪些其他图像共享最多的关键字。理想情况下，该算法还会考虑到某些关键字比其他关键字更重要，并对它们进行不同的权重。我什至不知道从哪里开始寻找这里，并且会非常高兴得到任何指示:)

我主要使用 Java 工作，但语言选择在这里无关紧要。我更感兴趣的是了解什么方法最适合我开始阅读。提前致谢：）

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

黎夕旧梦 2024-07-20 20:27:37

当然，您必须首先将“关键字列表”字段转变为真正的标记方案。最简单的一个是标签表，以及与图像表的“多对多”关系（即第三个表，其中每个记录都有一个图像的外键和另一个关键字的外键）。它可以非常快速地查找具有特定关键字集的所有图像。

用于检测限制短语的贝叶斯过滤器很有趣。我想说，除非你时间紧迫，否则就去吧。如果是这样的话，一些简单的模式匹配应该可以处理超过 90-95% 的情况，其余的可以由几个操作员手工快速完成。

回复收藏 0 原文

迎风吟唱 2024-07-20 20:27:37

(1) 看起来像是一个分类问题，其中文本中的单词作为特征，“受限”和“不受限”作为标签。贝叶斯过滤或任何分类算法都应该可以解决问题。

(2) 看起来像是一个聚类问题。首先，您想要提出一个良好的相似性函数，该函数根据关键字返回两个图像的相似性得分。余弦相似度可能是一个很好的起点，因为您正在比较关键字。从那里，您可以计算相似度矩阵，只需记住数据集中每个图像的“最近邻居”列表，或者您可以进一步使用聚类算法来得出实际的图像聚类。

由于您有如此多的记录，您可能希望跳过计算整个相似性矩阵，而只计算数据集的小随机样本的聚类。然后，您可以将其他数据点添加到适当的集群中。如果您想保留更多相似性信息，可以研究软聚类。

希望这能让您开始。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

27 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

忆悲凉

文章 0 评论 0

hgfg1645

文章 0 评论 0

qq_qLPLYi

文章 0 评论 0

戏舞

文章 0 评论 0

殊姿

文章 0 评论 0

﹂绝世的画

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文