我们可以在图像上使用BERT,并在CNN体系结构的帮助下与嵌入式使用?
我正在尝试将bert用于图像,我正在考虑执行此操作的以下步骤方法< /a>:
- 使用VGGNET(从网络中提取AVGPool层)创建图像的嵌入。
- 在向量矩阵上使用PCA从4096降低到768(我们从VGGNET中获得的嵌入)。
- 因为这是整数序列,因此将其传递到变压器编码器Bert。
这似乎是一件明智的事情吗?
I am trying to use bert for the images, the following steps I'm considering to do this approach:
- Create an embedding of an image using VggNet (extracting avgpool layer from the network).
- Using PCA for dimensionality reduction from 4096 to 768 on vector matrix (embeddings we’ve got from VggNet).
- As this is a sequence of integers, passing it to the transformer encoder, bert.
Does it seems like a sensible thing to do?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论