AI多标签分类用于识别单个产品

发布于 2025-02-07 09:22:58 字数 653 浏览 0 评论 0原文

我正在研究AI项目，以识别PDF-DOC的文本。我想标记示例以训练AI模型，但我站在十字路口上，不知道该选择哪种方法。这是有关用例的一些背景。

从现在开始，PDF-DOC出现在多个页面上。这些单独的页面代表包装中存在的产品。这些产品的布局始终相同，但是标签（如何保存在源系统中）可能会有很大差异。示例：产品房，汽车，汽车，踏板车和船可以在一包中存在。每个产品需要保存的信息都不同。例如汽车，电动机和踏板车的许可证号，但House的M2。

有350多种不同的产品。因此，有太多可能的组合。对于这个项目，我只想识别7种不同的产品。因此，最好将数据包标记为一个整体并在此上训练模型。还是最好先将数据包分为单个产品，然后将单个产品提供给相应的模型。

A =不要将数据包分为单个产品。整个数据包的火车模型。
B =将数据包分为单个产品。每种产品都将获得单个模型。

有一个图像可以帮助澄清上面的文本：

选项A或选项B可视化

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小鸟爱天空丶 2025-02-14 09:22:58

我会以不同的方式解决这个问题。

我认为类似的产品页面具有类似的方法来解析它们，例如：汽车始终在此位置拥有注册年（无论是在某些关键字还是（x，y）坐标之后）。

首先，为每个产品页面编写相应的解析规则，以获取所需的信息。有一些用于解析PDF的库，这是 python示例。

然后，将数据包分为单个页面，然后训练一个机器学习模型，以便能够分类“它是什么产品？” 。

完整的管道看起来像是1。将数据包分为第2页。将每个产品页面分类为类别3。应用相应的解析器4。组合（i是您打算使用的），

我会选择简单的东西作为一个简单的东西在关键字上的决策树/随机森林或作为基于文本的神经网络复杂的东西。

回复收藏 0 原文

~没有更多了~

关于作者

情魔剑神

暂无简介

文章

28 人气

关注发私信

友情链接

文江博客

AI多标签分类用于识别单个产品

选项A或选项B可视化

Option A or Option B visualization

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

AI多标签分类用于识别单个产品

选项A或选项B可视化

Option A or Option B visualization

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

十二

飞烟轻若梦

OPleyuhuo

wxb0109

旧城空念

-小熊_

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。