返回介绍

数学基础

统计学习

深度学习

工具

Scala

二十八、ExT5 [2021]

发布于 2023-07-17 23:38:25 字数 35431 浏览 0 评论 0 收藏 0

  1. 迁移学习是最近的 NLP 进展的基石。虽然自监督的预训练已被证明在利用大量未标记数据方面非常有效,但关于多任务 co-trainingsetup 中的迁移学习,仍有许多需要探索。之前的开创性工作,如 T5MT-DNN 已经在多任务 co-training 的范式中展示了一定程度的前景,然而存在灾难性遗忘 catastrophic forgetting 的挑战。为了证明与transfer 有关的 positive affinity ,任务往往必须被精心挑选。在许多情况下,也可能获得负向迁移 negative transfer 。这使得很难根据经验策划一组任务从而用于迁移学习。

    虽然标准的预训练通常采用自监督的 language modeling objective 的变体,某些类型的技能(如常识性知识),即使使用大量未标记的数据也只能以缓慢的速度获得。随着越来越大的模型被训练出来,开发更加 sample-efficientpre-training setting 变得更重要,并且可以通过多任务学习 multi-task learning 来解决。

    论文 《ExT5: Towards extreme multi-task scaling for transfer learning》 首次探索并提出了 Extreme Multi-task Scaling ,针对多任务预训练的一种新范式。与之前最大的工作 《Muppet: Massive multi-task representations with pre-finetuning》相比,ExT5 将任务数量增加了一倍,并聚焦于多任务预训练而不是微调,这使得 ExT5 能够与标准预训练进行直接比较。论文的 proposal 是基于这样的洞察:尽管在微调过程中,负向迁移是常见的,但一般来说,大量的、多样化的预训练任务集合,要比针对预训练任务的最佳组合的 expensive search 更好。

    为此,论文引入了 ExMix :一个由 107 个有监督的 NLP 任务组成的庞大集合,将被纳入多任务预训练 setup 。作者以 encoder-decoder 友好的格式处理所有的任务,以方便支持在所有任务中共享所有的参数。作者推测,在尽可能多的任务、分布、以及领域中的 ensembling effect 会产生一个一致的 net-positive outcome 。这与早期的多任务学习结果相呼应(《Multitask learning》《A model of inductive bias learning》),表明在足够多的任务中学习到的 bias 很可能会被泛化到从同一环境中抽取的 unseen 任务中。此外,论文的实验证明,所提出的 ExMix mixture 优于人工筛选的任务的最佳 mixture

    核心要点:

    • 自监督任务和107 个有监督任务,用相同的格式进行统一的训练。

    • 没必要针对具体的任务挑选最佳的监督任务组合,直接大量的监督任务组合即可。

    最后,作者提出了 ExT5 模型,它是一个 T5 模型,在 supervised ExMixmixture 、以及 self-supervised C4 span denoising 上进行预训练。ExT5 在公认的 benchmark 上,如 SuperGLUEGEMRainbow、以及 Closed-Book QA 任务上,优于 SOTAT5 模型。

    综上所述,本文的贡献如下:

    • 提出了 ExMix :一个由 107 个有监督的 NLP 任务组成的集合从而用于 Extreme Multi-task Scaling ,每个任务被格式化从而用于 encoder-decoder 训练。ExMix 的任务数量大约是迄今为止最大的研究(《Muppet: Massive multi-task representations with pre-finetuning》)的两倍,在不同的任务系列中总共有 18M 个标记样本。

    • 给定大量任务的集合,论文进行了严格的实验研究,评估常见任务系列之间的迁移。实验结果表明:在 fine-tuning transfer 的基础上筛选一个 pre-training mixture 并不简单。因此,搜索针对多任务预训练的最佳任务子集,这是具有挑战性且难以实现的。

    • 使用 ExMix ,论文在 C4 数据集的 span-denoising objective 的基础上预训练一个模型,产生了一个新的预训练模型 ExT5ExT5SuperGLUEGEMRainbowClosed Book Question Answering 、以及 ExMix 之外的其他几个任务上的表现优于 SOTAT5 ,同时也更加 sample-efficient

  2. 相关工作:

    • 通过多任务来改善 NLP 模型:

      • 《A unified architecture for natural language processing: Deep neural networks with multitask learning》 利用多任务学习来完成相对简单的任务,如词性标注 Part-of-Speech tagging

      • 《Sentence encoders on stilts: Supplementary training on intermediate labeled-data tasks》使用四个任务(具有大型数据集) intermediate 的微调阶段进行自然语言理解。

      • 类似地,《Multi-task deep neural networks for natural language understanding》 提出了 MT-DNN ,它使用的setup 规模为 30 个左右的任务、以及高达 440M 的参数。

      • 最近,《Muppet: Massive multi-task representations with pre-finetuning》 使用了大约 50 个任务和规模达 440M 参数的模型。

      • 《Don’t stop pretraining: Adapt language models to domains and tasks》 采取了另一种方法,即继续预训练一个模型,但使用 domain-specific 的数据作为 intermediate step

      • 《The natural language decathlon: Multitask learning as question answering》 提出了一个类似于 T5 的统一框架。

      • 最近,《Finetuned language models are zero-shot learners》 也说明了多任务学习阶段如何在 ~137B 参数的规模上大大改善大型语言模型的 zero-shot prompting 性能。

      • 人们还努力为特定的任务定制 pre-training objective ,例如,问答 question answering 任务、对话任务、和 span selection 任务。

    • 不同任务之间的关系:

      • 《Identifying beneficial task relations for multi-task learning in deep neural networks》 进行了一项与我们相似的研究,但针对更传统的 NLP 任务,如 chunkingCCG taggingPOS tagging 等。

      • 最近,《Exploring and predicting transferability across NLP tasks》 对各种分类/回归、问答、以及序列标注任务之间的关系进行了深入研究,并提出了一个 task-embedding framework 来预测这种关系。

      • 《UNIFIEDQA: Crossing format boundaries with a single QA system》 也进行了类似的实验,但具体到问答数据集/格式,形成了一个强大的 QA 模型,称为 UnifiedQAUnifiedQA 也是基于 T5 框架的。

      • 最近,《What’s in your head? emergent behaviourin multi-task transformer models》 阐述并分析了在相关的 co-training 任务(如 QA 和摘要)之间, encoder-only Transformerbehavior transfer

      • NLP 之外,《A convex formulation for learning task relationships in multi-tasklearning》 引入了一个学习 task relationship 的凸优化的 objective《On better exploring and exploiting task relationships in multitask learning: Joint model and feature learning》 在各种不同的数据集上探索和利用 task relationship

    • 选择要迁移的任务:

      • 我们的实验试图从经验上选择一组任务来迁移。沿着这些思路,《Learning to select data for transfer learning with Bayesian optimization》 使用具有相似性措施的贝叶斯优化方法来自动选择来自不同 domainn 的相关数据。

      • 类似地,《AutoSeM: Automatic task selection and mixingin multi-task learning》 使用 multi-armed bandits 来选择任务,并使用高斯过程 Gaussian Process 来控制所选任务的混合率。

      • 最近的另一波工作是根据人工定义的特征来选择合适的迁移语言(《Choosing Transfer Languages for Cross-Lingual Learning》《Ranking Transfer Languages with Pragmatically-Motivated Features for Multilingual Sentiment Analysis》)。

      • 除了 NLP 领域,《Efficiently identifying task groupings for multi-task learning》 提出了一种方法,根据任务梯度来选择迁移的任务。

      上述所有的工作都是选择为感兴趣的下游任务定制的数据。如果试图以类似的方式训练一个通用的预训练模型,就会出现类似于我们正文部分所提到的计算瓶颈。

    • 预训练的 TransformerTransformer 模型,如 T5, BERT, GPT-3 依靠大型无标签语料库进行自监督学习。鉴于 pre-train-finetune 范式的广泛成功,寻找合适的预训练任务也成为一个活跃的研究领域。虽然已经有证据表明, supplementary pre-training task 有助于提高性能,但这项工作是第一个大规模的多任务预训练模型。

    • Scaling LawsTransformerscaling laws 最近引起了很多关注,特别是与模型大小有关的。

      《Scaling laws for neural language models》 中,作者进一步研究了与数据集大小有关的 scaling (在同一预训练语料库上)。为此,这项工作可以被解释为在可用于预训练的高质量的、多样化的标记任务的数量方面进行 scaling up 的尝试。

28.1 ExMix 任务集合

  1. 为了探索 Extreme Task Scaling 范式,我们引入了 ExMixExtreme Mixture ),这是一个由 107 个不同的英语 NLP 任务组成的集合,共有 18M 个样本。遵从 T5 ,我们将所有的任务格式化为 text-to-text 的样本,以便进行多任务训练。这种统一的格式也使简单的 implementation 成为可能,而不需要像以前的工作那样来提供 task-specifichead/lossloss scaling 或显式的梯度积累。

    在从 ExMix 中选择样本时,每个数据集的样本都是按单个数据集的大小成比例来采样的,每个数据集的取样率上限为3×105$ 3\times 10^5 $ 个最大有效样本,以确保大型数据集和小型数据集之间的平衡。

    这个采样率上限是如何设定的?论文并未说明。

  2. 尽管ExMix 中的任务来自不同的数据集,而且都有自己的细微差别,但ExMix 任务大致代表了以下任务族 task family

    • 分类 classificationsingle segment)。

    • 自然语言推理 natural language inferencetwo segments)。

    • 阅读理解 reading comprehension

    • 闭卷问答 closed-book question answering: CBQA

    • 常识推理 commonsense reasoning

    • 语义解析 semantic parsing

    • 对话 dialogue

    • 摘要 summarization

    虽然也存在其他 task group ,但上述的任务族涵盖了 ExMix 的大部分。这个任务集合还可以实现多任务学习,其规模是以前工作(《Muppet: Massive multi-task representations with pre-finetuning》)的两倍。

  3. 下表总结了 ExMix 中包括的 107 个数据集。表中的一些行代表了现有的 benchmark (它们将几个任务组合在一起)。在每个集合中,我们使用包含英语训练数据的数据集:

    • GLUE benchmarkCoLA, SST-2, MRPC, QQP, STS-B, MNLI, QNLI, RTE, WNLI 等任务。

    • SuperGLUE benchmarkBoolQ, CB, COPA, MultiRC, ReCoRD, RTE, WiC, WSC 等任务。

    • KILT benchmarkFEVER, AIDA, WNED, T-REx , NQ, HoPo, TQA, ELI5, WoW 等任务。

    • Rainbow benchmarkNLI, CosmosQA, HellaSWAG, PIQA, SocialIQA, WinoGrande 等任务。

    • GEM (en)Wiki-Lingua, WenNLG , CommonGEN, E2E, DART, ToTTo, Wiki-Auto, TurkCorpus 等任务。

    • DialoGLUEBanking77, HWU64, CLINC150, SGD, TOP 等任务。

    • TweetEvalEmotion Recognition, Emoji Prediction, Irony Detection, Hate Speech Detection, Offensive Language Identification, Sentiment Analysis, Stance Detection 等任务。

28.1.1 ExMix 任务之间的迁移关系

  1. 我们的目标是在 ExMix 上预训练一个模型,以提高下游的性能。要问的一个自然问题是,哪些任务对下游性能有负向影响?具体来说,在用于多任务预训练时,是否存在 ExMix 的一个子集能导致更好的 representation ?显然,测试所有可能的2M$ 2^{M} $ 个组合是不现实的(M$ M $ 为 ExMix 中包含的任务数量),因为预训练过程的成本很高。相反,我们使用类似任务的代表性子集,并执行实验成本较低的 co-training 程序(即,multi-task fine-tuning )。稍后,我们将探讨这些结果是否可以为任务选择提供信息,从而用于多任务预训练。

    为了研究 ExMix 中任务族之间的迁移,我们构建了每 3 个任务构成的子集(如下表所示),每个子集按照其任务族进行划分。利用这些子集,我们评估了多任务学习(co-trainingsetup 中任务族之间的迁移。虽然其他类型的任务在 ExMix 中可用,但我们没有包括它们,因为它们不足以代表一个任务族,而且会以二次方的速度 scale up 需要训练的模型数量。

    这里考虑的不是任务之间的迁移,而是任务族之间的迁移。

  2. 实验设置:我们在每一对任务族上微调一个模型(即一次 6 个数据集)。为了确保任务之间的平衡,我们在任务族内按比例采样,但在任务族之间均匀采样。例如,在评估 classification 任务和 NLI 任务之间如何相互迁移时,NLI 样本和 classification 样本的总体比例是 1:1 ,然而 NLI 内部的 MNLI:ANLI 的采样比例是按比例的(大约是 2.4:1)。作为 reference(即,baseline),我们还在每个任务族上训练一个模型,每个任务族的内部是按比例采样。

    baseline 是没有族间迁移学习的模型;实验组是有族间迁移学习的模型。注意,这里族间采样是 1 : 1 的。

    总的来说,这导致训练了F+CF2$ F+ \mathcal C_F^2 $ 个模型,其中F$ F $ 是任务族的数量(用于 baseline ),CF2$ \mathcal C_F^2 $ 是从F$ F $ 个元素中随机选择2$ 2 $ 个元素的数量(用于实验组)。如 Table 1 所示,我们的实验使用F=8$ F=8 $ ,总共训练出 34 个模型。每个模型在已发布的 T5.1.1_BASE checkpoint 的基础上进行微调,使用 batch size = 128103$ 10^{-3} $ 的恒定学习率微调 200k steps

  3. 我们在下表中总结了我们的结果。第i$ i $ 行第j$ j $ 列的元素表示使用在i$ i $ 族和j$ j $ 族上 co-trained 的模型在j$ j $ 族上的平均性能。对于族内模型(对角线元素),我们报告了高达 100k 步(相同数据预算)和 200k 步(相同计算预算)的结果。最后一行中,平均数的计算不包括家族内模型(即对角线元素)。最后一列表示一个 source family 为其他任务族提供的平均增益。

    我们观察到:

    • 尽管存在一些特定的 task-family pair 显示出正向迁移(如,与NLI 共同训练有助于大多数其他任务),但与族内训练相比,在跨任务族训练时,负向迁移更为常见。

    • 在相同的数据预算下,56 个族间的关系中,有 21 个比族内的模型表现更差;在相同的计算预算下,表现更差的数据增加到 38

    • 虽然不同任务族之间大量的负向迁移是一个预期的结果,但有趣的趋势体现在个别关系中。例如,摘要任务通常似乎会损害大多数其他任务族的性能,而 CBQA 任务对多任务的微调高度敏感。

  4. 我们还使用与 Table 2 相同的模型在下图中报告了族内数据集的相关性。在大多数情况下,我们看到同一族的数据集之间存在正相关关系。然而,在少数情况下,我们观察到一个相反的趋势。例如,在 GEM schema-guided 的对话数据集上表现较好的微调模型在KILT Wizard-of-Wikipedia 上取得的分数较低。

    这里是用 baseline 模型来评估族内的两个数据集。

    这一初步的探索性分析强调了 ExMix 作为系统地研究 task relationship 的工具的潜力,以及在预训练的 representation 之上朴素地利用多任务学习的潜在挑战。

    族内迁移学习效果较好,族间迁移学习效果不好。

28.1.2 微调 task relationship 是否有助于定制一个 pretraining mixture?

  1. 前面的观察表明:在现有的 pre-trained checkpoint 之上进行多任务 co-training 并不简单,而且常常导致负向迁移。然而,背后的 task relationship 可能有助于有效地搜索 ExMix 的理想子集进行多任务预训练。

    为此,我们选择了一组最有前景的任务族,将其纳入多任务预训练的 setup 中,按照它们对其他目标任务族提供的平均相对改善的程度对任务族进行排序( Table 2 的最后一列)。具体而言,我们将 ExMix 中的 NLIcommonsenseclassificationclosed-book QA 任务纳入多任务预训练设置中,形成了 48 个任务的 mixture (下表中 Best-effort 这一行)。然后,我们在 SuperGLUE 上对得到的模型进行微调,在下表中与 T5.1.1ExT5 (包含所有 ExMix 任务)进行比较。

    虽然这个模型的表现略微优于 T5.1.1 ,但它并没有产生比 ExT5 更好的结果。此外,正如我们在任务扩展实验(接下来的内容)中所报告的那样,它并没有优于随机选择的 55 个任务的平均表现。

    我们的结论是,多任务微调期间的负向迁移不一定会抑制预训练。虽然我们不能直接得出结论,即ExMix 的理想子集不存在,但我们的实验表明,随机包括更多不同的预训练任务一般会提高下游任务的性能。还必须指出的是,我们的最终目标是找到一种 mixture 从而导致一个可用于大量下游任务的通用预训练模型,而不仅仅是针对 SuperGLUE 定制化的 mixture

28.1.3 多任务预训练 VS Pre-Finetuning

  1. 另一种利用多任务学习的方法不是在 ExMix 上进行预训练,而是作为预训练和微调的中间步骤,这被 《Muppet: Massive multi-task representations with pre-finetuning》 称为预微调 pre-finetuning 。我们进行实验来比较预训练和预微调。我们从一个标准的 T5 base checkpoint 开始,用 ExMix 进行预微调。在这个阶段之后,我们在 SuperGLUE 上进行微调。

    下表比较了预微调和我们提出的多任务预训练。我们还报告了两种方案中模型的总计算量(以处理的 token 总数来衡量)。结果表明:多任务预训练明显优于预微调。

    一个潜在的假设是:多任务预训练缩小了预训练数据分布和微调数据分布之间的差距,因为预训练阶段更接近于微调。相反,将预训练和预微调分离成两个不同的阶段可能会诱发对预训练任务的灾难性遗忘。因此,在 ExT5 中,我们选择了多任务预训练而不是预微调。

28.1.4 应该混合多少标记数据

  1. 这里我们将探讨在大规模多任务预训练中,C4ExMix 样本的比例如何影响性能。正如后面的内容所提到的,这是由一个超参数R$ R $ 控制的。R$ R $ 的物理含义是,在一个 pre-training batch 中,C4 样本的数量大约是 ExMix 样本数量的R$ R $ 倍。

    C4 是自监督预训练数据,ExMix 是多任务监督数据。

    从下图的结果中,我们发现:

    • 在多种R$ R $ 的取值下, ExMix 在与自监督 C4 预训练混合时提高了下游性能。

    • R=0$ R=0 $ (即 ,没有 C4 预训练)训练的模型的效果最差。

    这个结果很重要,因为它表明,虽然 ExMix 改善了预训练过程,但在大型非结构化语料库上的自监督训练仍然是至关重要的。

28.1.5 Task Scaling

  1. 这里我们探讨了模型的性能如何随着大规模多任务预训练设置中的任务数量的增加而变化。我们随机选择 305580 个任务(每个任务都是最后一个任务的超集),对一个 BASE 大小的模型进行 524k 步的预训练,并在 SuperGLUE 上对其进行微调。我们用 batch size=128/256 (两种实验配置) 、以及R=2$ R=2 $ ( C4 样本和 ExMix 样本的比例)来训练我们的模型,因为这种配置对我们的 BASE 大小的模型效果最好。我们在三个随机种子(用于任务子集选择)上重复这个过程,并在下图中报告平均分数。

    总的来说,我们可以看到:

    • 在大 batch size 的情况下,增加任务数量通常有助于下游的性能。这加强了我们的直觉,即 scale up 任务有助于模型效果。

    • 在小 batch size 的情况下,上升趋势较小,表明大的 batch size 对大量的任务是必不可少的。这是直观的,因为多任务学习导致梯度是有噪声的(《Gradient surgery for multi-task learning》)。

      关于为什么会出现这种情况的另一个解释是:大 batch 训练甚至可以为单任务模型提供好处(《Don’t decay the learning rate,increase the batch size》),《An empirical model of large-batch training》正式确定了这种趋势。

28.1.6 利用 ExMix 改善 Sample Efficiency

  1. 我们假设, extreme multi-task scaling 也能提高预训练的样本效率。为了测试这一点,我们从 ExMix 中排除了 SuperGLUE ,对一个 large model 进行了 200k 步的预训练,并在预训练的早期阶段在 SuperGLUE 上对其进行了几次微调。

    即,最多进行了 200k 步的预训练,然后把其中的第 20k, 50k, 100k, 200k 预训练的 checkpoint 用于下游微调。

    结果如下图所示。我们发现:ExMix 的预训练明显比普通的自监督预训练更节省样本。注意,仅在 20k 的预训练 step 上,我们的 ExT5 模型已经达到了 75.8SuperGLUE score ,比完全预训练的 BERT large model 高出约 +4% (注,BERT large model 的数据并没有在下图中展示)。

    注意,这里的预训练指的是利用 pre-trained model 初始化的预训练,并没有从头开始。

28.2 ExT5 模型

  1. 为了克服多任务 co-training 的挑战,即前面讨论的负向迁移和灾难性遗忘,本文的剩余部分通过 extreme multi-task scaling 重新审视 T5 引入的多任务预训练范式。这里引入 ExT5,一个预训练的 sequence-to-sequence Transformer encoder-decoder 模型,它基于流行的 T5 框架。

28.2.1 训练 T5

  1. 预训练:我们在混合了 C4ExMixmixture 上进行预训练,以R$ R $ 比例来混合。其中,R$ R $ 是一个超参数,表示 C4 样本相对于 ExMix 样本的采样比例。我们使用的 C4 objectiveT5 使用的 objective 相同,每个任务都优化了标准的 sequence-to-sequence cross-entropy loss

    ExT5 的训练 step 数量与 T5 模型相同,并且 ExT5 看到的 token 总数也与 T5 模型相同。具体而言,我们对我们的模型进行预训练,总 step 数量为 1Mbatch size = 2048 ,序列长度为 512 。结果在预训练期间,模型总共看到了大约 1Ttoken (包括无监督数据集和有监督数据集)。

    我们在所有的实验中使用 T5.1.1 架构,它使用 GEGLU 激活函数而不是经典 Transformer 模型中的 ReLU 。对于优化,我们使用 Adafactor 。学习率的 schedule 为:在开始的 10kstep 使用 0.01 的常数学习率,然后使用平方根倒数的学习率。

    ExT5 也使用与 T5 相同的 tokenizer

    虽然我们发现R=2$ R=2 $ 的混合比例对我们的 BASE 大小的模型很有效,但我们使用R=4$ R=4 $ 来预训练更大的 ExT5 模型。这是因为我们推测,更大容量的模型会更容易过拟合监督数据集,而且也更不容易受到灾难性遗忘的影响。

    模型越大,则自监督数据集占比越大,因为监督数据集太小从而容易陷入过拟合,以及更不容易受到灾难性遗忘的影响。

  2. 微调:为了公平比较,我们对 T5ExT5 采用了相同的微调程序,尽管我们发现 ExT5 在微调时通常受益于较小的学习率(ExT5 采用104$ 10^{-4} $ 的效果较好,T5 变体采用103$ 10^{-3} $ 的效果较好)。

    这里是下游任务,而不是前面提到的 “多任务” (用于预训练)。

    具体到每个任务:

    • SuperGLUE:我们以类似于 T5 的方式,将整个 SuperGLUE 作为一个 mixture 进行微调。我们总共微调了 200k 步, batch size = 128 。在 SuperGLUE 上选择 checkpoint 时,我们遵循 T5 的惯例,为每个任务选择最佳 checkpoint ,以便与在单个任务上进行微调的模型进行公平比较。

      一次预训练得到多个 checkpoint ,每个任务一个 checkpoint

    • GEM:我们报告了所有数据集的测试集结果,除了 CommonGenToTTo ,我们在这两个数据集上报告了验证集结果。我们扫描了不同的学习率{103,5×104,104}$ \{10^{-3}, 5\times 10^{-4}, 10^{-4}\} $ 。所有结果都是用 GEM-metrics 计算的。对于每个数据集,我们使用验证集上的BLEUROUGE-1ROUGE-2ROUGE-L 分数的平均值来选择最佳 model checkpoint 。我们使用贪婪解码策略,以与最初的GEM 论文保持一致。

    • CBQA:我们报告验证集的结果,并扫描了不同的学习率{103,104}$ \{10^{-3}, 10^{-4}\} $ 。

    • Rainbow:我们在所有数据集上进行多任务 co-train,并扫描了不同的学习率{103,104}$ \{10^{-3}, 10^{-4}\} $ 。

    • WMTMachine Translation:我们在三个 WMT 集合上微调我们的模型,即 EnDeEnFrEnRo 。我们使用一个恒定的学习率103$ 10^{-3} $ ,dropout rate = 0.1 。我们用 batch size = 4096 ,最多 400k 步,并报告峰值的验证集 BLEU score 。 我们使用 beam size = 4 ,以及α=0.6$ \alpha = 0.6 $ 的长度惩罚因子。

    • ARC:我们报告了 Challenge set 的分数,batch size = 32 ,并扫描了不同的学习率{103,104}$ \{10^{-3}, 10^{-4}\} $ 。

    • CoNLL-03 NER:我们将 NER 转换为 seq2seq ,将 target 写成 tagsentities 的有序序列(例如 "When Alice visited New York" -> "[PER] Alice [LOC] New York")。准确率是在 sentence level 上衡量的,只有当 predictionreference sequence 完全匹配时,才认为它是正确的。

28.2.2 实验

  1. 实验配置:我们的实验同时考虑了 within-mixture taskout-of-mixture task (即一个任务是否包括在 ExMix 中)。

    • within-mixture task 衡量任务从多任务预训练和 extreme task scaling 中受益的程度。与 T5co-trained model 类似,我们继续从预训练的 ExT5 checkpoint 对目标任务进行微调。

    • 对于 out-of-mixture task ,我们考虑可能是新的未见过的任务、未包括在 ExMix mixture 中的任务,以测试对 unseen task 的泛化效果。

  2. within-mixture task 实验结果:我们报告了 SuperGLUE (Table 5)GEM (Table 6)Rainbow (Table 7)MsMarco (Table 8)、以及 CBQA datasets (Table 9) 的结果。总的来说,我们观察到 ExT5 在一系列的模型大小上都持续地超过了强大的T5 baseline

    • SuperGLUE 上,我们的 BASE/LARGE/XL 模型分别取得了相对 +5%/+2.3%/+0.7% 的收益。

    • GEM 上,ExT59 个任务中的 6 个超越了 T5 ,而在其他 3 个任务中保持了相同的水平。值得注意的是,在 WebNLG 这样的数据集上, large model 的收益大约是 +11% ROUGE

    • Rainbow 上,ExT5T5 平均高出 +0.7%

    • 最后,在 question answeringranking 方面,ExT5 在两种不同的规模下都大大超过了 T5

  3. out-of-mixture task 实验结果:我们也有兴趣在 ExMix 之外的任务上评估 ExT5 ,并假设 ExT5extreme multi-task pre-training 将导致在新的未见过的环境中获得更好的性能。具体来说,我们在以下任务中微调和评估:

    • Machine Translation :将句子从英语翻译成其他语言。

    • 推理 Reasoning :回答 ARC 上的科学问题。

    • 命名实体识别 Named Entity Recognition :从 CoNLL-2003 NER 数据集的句子中提取所有实体。

    实验结果如下表所示。可以看到:ExT5 超越了 T5 baseline 。最大的改进是在 ARC 科学推理任务上,也许是由于 ExMix 中大量的 QA 任务。然而,NERMT 任务并在 ExMix 中并没有类似的数据集,但是性能也得到了改善。这表明 ExT5 所学到的 representation 更具有通用性,可以适应新的objective ,即使输出是一种新的语言。

    从实用的角度来看, ExT5 的这种改进的通用性是非常令人鼓舞的,因为对于任何新的目标任务t$ t $ ,用ExMix{t}$ \text{ExMix}\cup \{t\} $ 再次进行预训练是非常昂贵的。相反,我们看到 ExT5extreme multi-task pre-training 已经提供了改进的结果。因此,只有当训练数据集的数量大幅增加时,才值得重复预训练 ExT5

28.3 结语

  1. 局限性:尽管我们尽最大努力在尽可能多的代表性任务上进行评估,同时为一组给定的迁移学习实验保持 task partition 之间的平衡,但任何显式地将数据集抽象为 "任务族" 的研究都高度依赖于与任务族的 representative dataset 的性质、domain 和表达能力有关的细微差别。在本文中,我们构建了子集从而包含多样化的数据集,我们试图将任务族划分为尽可能的相互排斥。然而,必须承认,没有一个数据集是完全孤立的,任何一组数据集都只是一个更大的 "任务族" 的代表。

    另外,像 BLEU/ROUGE 这样的 lexical metric 是有用的,但并不能全面反映一个模型在文本生成任务上的真正表现。

  2. 未来工作:

    • 我们相信,ExT5 的多语言版本将是这项工作的自然延伸。这样一个模型将需要特别注意,不仅要平衡任务族,而且要平衡任务语言。ExMix 的多语言版本可以为分析多语言 NLP 模型如何在不同语言间迁移提供一个更强大的基础。

    • 我们还假设,引入旨在利用多任务学习 setupinductive bias 的建模创新可以推动 ExT5 所显示的强大性能的边界。

    • 其他解决方案,如梯度操作,也可能进一步改善 extreme multi-task scaling ,尽管代价是更复杂的实现。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文