transformer-model

投稿关注

文章 0 浏览 6

我试图将KERAS变压器模型转换为Pythorch，但模型参数的数量不同

为什么Pytorch模型只有约370万个参数，而Keras模型的参数超过3000万？我做错了什么，或者在凯拉斯和多障碍层的pytorch实现之间有如此巨大的区别？多…

看春风乍起 2025-02-13 20:59:35 0 0

BERT CLS值的范围是多少？

正如您在标题中看到的那样，我对Bert的价值范围很感兴趣。我读了伯特纸，但这对我来说仍然有些困惑。在分类结束时，BERT具有计算出的CLS令牌（分类令…

美羊羊 2025-02-13 12:31:02 1 0

如何将FairSeq Interactive与多个GPU使用？

我正在尝试为模型生成新的预测，但是我发现使用FairSeq并不是直观的。我发现 FairSeq-Interactive 可以帮助生成良好的batch_size设置，但是，似乎一次…

原来是傀儡 2025-02-13 10:38:03 1 0

拥抱面 - 为什么T5模型缩短句子？

我想训练模型进行咒语校正。我培训了两种型号Allegro/plt5-base，其中包括波兰语句子和带英文句子的Google/t5-v1_1基础。不幸的是，我不知道出于什么…

爱你是孤单的心事 2025-02-13 08:24:32 1 0

混淆矩阵解释数据完美平衡

我已经培训了一个基于变压器的分类器，其中有2类（0,1）在完美平衡的数据集上达到91％的精度。在调谐阈值之后，我在验证数据上打印了混乱矩阵，这些结…

夢归不見 2025-02-12 11:58:16 3 0

在培训DITR时，您需要哪些机器规格？（使用变压器端到端对象检测）

我正在研究DITR训练所需的机器规格。但是，我只有一个GEFORCE 1660 SUPER，并且我遇到了一个“失败”错误。因此，请让我知道您必须使用多少机器规格…

握住你手 2025-02-12 01:34:50 1 0

如何在DataStage中的源文件和目标表之间进行复制记录检查

我想进行两种重复检查，以前是否已经加载了该名称的文件。例如，将文件a加载到目标表中，然后运行后续运行，如果我们收到文件A，则该时间序列应因已…

ゞ花落谁相伴 2025-02-11 18:57:33 1 0

OpenAI GPT-3 API：微调微调模型？

Closed. This question is opinion-based. It is not currently accepting answers. 想要改进这个问题吗？更新该问题，以便可以通过。闭合 12个月前…

水染的天色ゝ 2025-02-10 11:09:07 3 0

注意机制中的矩阵操作

我正在阅读一篇有关用于金融的变压器机器学习模型的文章。我试图理解体系结构背后的数学，但是我未能理解这部分：尤其是，我不明白为什么操作之间的…

方圜几里 2025-02-10 02:36:27 1 0

from_config和在huggingface中的差异

num_labels = 3 if task.startswith("mnli") else 1 if task=="stsb" else 2 preconfig = DistilBertConfig(n_layers=6) model1 = AutoModelForSequen…

不爱素颜 2025-02-09 03:13:06 2 0

如何微调蒙版语言模型？

我正在尝试按照 huggingface教程（随机掩盖一组单词并预测它们）。但是他们假设数据集在他们的系统中（可以从数据集中加载 import load_dataset; loa…

原谅我要高飞 2025-02-08 00:07:47 2 0

神经网络中残留连接的使用是什么？

我最近一直在学习自我发明的变形金刚，“您需要的就是您所需要的”论文。在描述论文中使用的神经网络的架构时，本文的一个分解包括有关剩余连接的解释…

风情万种。 2025-02-07 09:36:32 1 0

如何在Pytorch中保存/加载模型检查点？

使用Ubuntu 20.04，Pytorch 1.10.1。我正在尝试使用变压器体系结构和多设备来解决音乐生成任务，以处理具有多种特征的代币。在每个训练迭代中，我必…

情绪操控生活 2025-02-06 10:29:06 3 0

在应用sklearn.com.pose.columntransformer上，如何保留列订单

我想使用 Pipeline 和 columntransformer 来自Sklearn库的模块在Numpy数组上应用缩放。 Scaleer应用于某些列。而且，我想具有相同的输入列顺序输出。 …

淡淡の花香 2025-02-06 03:11:54 3 0

tranformer中的蒙版自我发作的解码器

我正在写关于注意机制的论文。在我解释变压器解码器的段落中，我写了这几篇：第一个子层称为掩盖自我注意，其中掩盖操作包括防止解码器注意后续单词…

戏蝶舞 2025-02-05 09:54:44 4 0

共 5 页
1
2
3
4
5
下一页

李珊平

文章 0 评论 0

关注

Quxin

文章 0 评论 0

关注

范无咎

文章 0 评论 0

关注

github_ZOJ2N8YxBm

文章 0 评论 0

关注

若言

文章 0 评论 0

关注

南…巷孤猫

文章 0 评论 0

友情链接

文江博客