transformer-model

transformer-model

文章 0 浏览 6

在训练Bert变体时,获得IndexError:index超出自我范围

xlm_r_model(input_ids = X_train_batch_input_ids , attention_mask = X_train_batch_attention_mask , return_dict = False ) 训练 面对以下错误:…

多情出卖 2025-01-23 22:58:42 2 0

培训新的自动驱动器拥抱脸

获取此错误:attributeError:'gpt2tokenizer'对象没有 属性'train_new_from_iterator' 与拥抱面部文档非常相似。我更改了输入,就是它(不应该影响…

笔落惊风雨 2025-01-23 06:27:59 2 0

MultiHeadections在版本之间提供截然不同的值(Pytorch/Tensorflow

我正在尝试重新创建用pytorch编写的变压器并使其张力。一切都进展顺利,直到每种版本的多项式开始提供极大的输出。这两种方法均为本文“您需要的关注…

可遇━不可求 2025-01-22 03:44:32 4 0

春季集成 - 用@transformer符号注释的两个方法的两个变压器

我有一种用@transform符号注释的方法。但是,在其他情况下,需要将此变压器用于不同的输入和输出通道。让我们认为我有这样的代码: @Transformer(inpu…

旧话新听 2025-01-21 10:24:03 1 0

不理解绝对位置编码器的公式

在此处输入图像描述 我无法理解 NLP 中的这个简单公式,因为我专门研究 CV。我知道 XiWq(Xj*Wk)T 的剂量是什么意思。但为什么公式中 E 和 W 交换,为…

骷髅 2025-01-19 20:01:01 1 0

仅使用T5型号的编码器部分

我想建立一个只需要语言模型的编码器部分的分类模型。我尝试过Bert、Roberta、xlnet,到目前为止我都成功了。 我现在只想从 T5 测试编码器部分,到目…

枯叶蝶 2025-01-19 16:52:59 5 0

Bert 预测形状不等于 num_samples

我有一个文本分类,我正在尝试使用bert进行。以下是我正在使用的代码。模型培训代码(下)效果很好,但我面临的预测部分面临着 from transformers imp…

想念有你 2025-01-18 14:20:14 2 0

为什么DETR需要设置一个空类?

为什么Detr需要设置一个空班? 它设置了一个“背景”类,这意味着非对象,为什么?…

稳稳的幸福 2025-01-18 09:36:34 1 0

如何知道一个词是否属于变压器模型?

我使用模型 roberta 和 flaubert ,我使用python库 ston_transformer 。 我使用余弦分数来计算相似性,但对某些话来说效果不佳。 这些单词似乎是模型…

眼趣 2025-01-17 19:16:50 4 0

PyTorch Temporal Fusion Transformer 预测输出长度

我已经在一些训练数据上训练了时间融合变压器,并希望对一些看不见的数据进行预测。为此,我使用 pytorch_forecasting TimeSeriesDataSet 数据结构 te…

还不是爱你 2025-01-17 13:16:02 4 0

如何正确微调t5模型

我正在按照 此笔记本。 然而,验证集和训练集的损失下降得非常缓慢。我将learning_rate更改为更大的数字,但没有帮助。最终,验证集上的 bleu 分数很…

惯饮孤独 2025-01-16 18:58:23 2 0

运行时错误:形状“[-1, 784]”对于大小为 614400 的输入无效

我正在练习实现“自动编码变量贝叶斯(VAE)”论文的代码。 但是,错误“RuntimeError:shape [16, 1, 28, 28] 对于大小为 37632 的输入无效”尚未解决…

清风不识月 2025-01-16 04:04:20 3 0

BertForMaskedLM 的正确返回值是多少?

我正在使用 Huggingface BertForMaskedLM。 对于一个句子,我从 BertForMaskedLM 获得 3 维返回。 例如(P,N,V),这里我理解N是句子的长度,V是Ber…

夕嗳→ 2025-01-15 10:17:35 4 0

如何根据输出张量从pytorch模型中删除预测头?

我正在开发一个 ViT(Vision Transformer)相关项目,一些低级定义位于 timm 库的深处,我无法更改。低级库定义涉及线性分类预测头,它不是我的网络的…

我要还你自由 2025-01-15 01:31:57 4 0

层“模型”的输入0与层不兼容:预期形状=(无, 250, 3),在经过训练的变压器模型中发现形状=(无, 3)

我有一个用tensorflow 2.7.0 和 python 3.7 训练的 keras transformer 模型,输入形状:(None, 250, 3) 和形状为:(250, 3)(不是图像)的二维数组输…

江湖正好 2025-01-14 20:46:52 3 0
更多

推荐作者

alipaysp_snBf0MSZIv

文章 0 评论 0

梦断已成空

文章 0 评论 0

瞎闹

文章 0 评论 0

寄意

文章 0 评论 0

似梦非梦

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文