数学基础
- 线性代数
- 概率论与随机过程
- 数值计算
- 蒙特卡洛方法与 MCMC 采样
- 机器学习方法概论
统计学习
深度学习
- 深度学习简介
- 深度前馈网络
- 反向传播算法
- 正则化
- 深度学习中的最优化问题
- 卷积神经网络
- CNN:图像分类
- 循环神经网络 RNN
- Transformer
- 一、Transformer [2017]
- 二、Universal Transformer [2018]
- 三、Transformer-XL [2019]
- 四、GPT1 [2018]
- 五、GPT2 [2019]
- 六、GPT3 [2020]
- 七、OPT [2022]
- 八、BERT [2018]
- 九、XLNet [2019]
- 十、RoBERTa [2019]
- 十一、ERNIE 1.0 [2019]
- 十二、ERNIE 2.0 [2019]
- 十三、ERNIE 3.0 [2021]
- 十四、ERNIE-Huawei [2019]
- 十五、MT-DNN [2019]
- 十六、BART [2019]
- 十七、mBART [2020]
- 十八、SpanBERT [2019]
- 十九、ALBERT [2019]
- 二十、UniLM [2019]
- 二十一、MASS [2019]
- 二十二、MacBERT [2019]
- 二十三、Fine-Tuning Language Models from Human Preferences [2019]
- 二十四 Learning to summarize from human feedback [2020]
- 二十五、InstructGPT [2022]
- 二十六、T5 [2020]
- 二十七、mT5 [2020]
- 二十八、ExT5 [2021]
- 二十九、Muppet [2021]
- 三十、Self-Attention with Relative Position Representations [2018]
- 三十一、USE [2018]
- 三十二、Sentence-BERT [2019]
- 三十三、SimCSE [2021]
- 三十四、BERT-Flow [2020]
- 三十五、BERT-Whitening [2021]
- 三十六、Comparing the Geometry of BERT, ELMo, and GPT-2 Embeddings [2019]
- 三十七、CERT [2020]
- 三十八、DeCLUTR [2020]
- 三十九、CLEAR [2020]
- 四十、ConSERT [2021]
- 四十一、Sentence-T5 [2021]
- 四十二、ULMFiT [2018]
- 四十三、Scaling Laws for Neural Language Models [2020]
- 四十四、Chinchilla [2022]
- 四十七、GLM-130B [2022]
- 四十八、GPT-NeoX-20B [2022]
- 四十九、Bloom [2022]
- 五十、PaLM [2022] (粗读)
- 五十一、PaLM2 [2023](粗读)
- 五十二、Self-Instruct [2022]
- 句子向量
- 词向量
- 传统CTR 预估模型
- CTR 预估模型
- 一、DSSM [2013]
- 二、FNN [2016]
- 三、PNN [2016]
- 四、DeepCrossing [2016]
- 五、Wide 和 Deep [2016]
- 六、DCN [2017]
- 七、DeepFM [2017]
- 八、NFM [2017]
- 九、AFM [2017]
- 十、xDeepFM [2018]
- 十一、ESMM [2018]
- 十二、DIN [2017]
- 十三、DIEN [2019]
- 十四、DSIN [2019]
- 十五、DICM [2017]
- 十六、DeepMCP [2019]
- 十七、MIMN [2019]
- 十八、DMR [2020]
- 十九、MiNet [2020]
- 二十、DSTN [2019]
- 二十一、BST [2019]
- 二十二、SIM [2020]
- 二十三、ESM2 [2019]
- 二十四、MV-DNN [2015]
- 二十五、CAN [2020]
- 二十六、AutoInt [2018]
- 二十七、Fi-GNN [2019]
- 二十八、FwFM [2018]
- 二十九、FM2 [2021]
- 三十、FiBiNET [2019]
- 三十一、AutoFIS [2020]
- 三十三、AFN [2020]
- 三十四、FGCNN [2019]
- 三十五、AutoCross [2019]
- 三十六、InterHAt [2020]
- 三十七、xDeepInt [2023]
- 三十九、AutoDis [2021]
- 四十、MDE [2020]
- 四十一、NIS [2020]
- 四十二、AutoEmb [2020]
- 四十三、AutoDim [2021]
- 四十四、PEP [2021]
- 四十五、DeepLight [2021]
- 图的表达
- 一、DeepWalk [2014]
- 二、LINE [2015]
- 三、GraRep [2015]
- 四、TADW [2015]
- 五、DNGR [2016]
- 六、Node2Vec [2016]
- 七、WALKLETS [2016]
- 八、SDNE [2016]
- 九、CANE [2017]
- 十、EOE [2017]
- 十一、metapath2vec [2017]
- 十二、GraphGAN [2018]
- 十三、struc2vec [2017]
- 十四、GraphWave [2018]
- 十五、NetMF [2017]
- 十六、NetSMF [2019]
- 十七、PTE [2015]
- 十八、HNE [2015]
- 十九、AANE [2017]
- 二十、LANE [2017]
- 二十一、MVE [2017]
- 二十二、PMNE [2017]
- 二十三、ANRL [2018]
- 二十四、DANE [2018]
- 二十五、HERec [2018]
- 二十六、GATNE [2019]
- 二十七、MNE [2018]
- 二十八、MVN2VEC [2018]
- 二十九、SNE [2018]
- 三十、ProNE [2019]
- Graph Embedding 综述
- 图神经网络
- 一、GNN [2009]
- 二、Spectral Networks 和 Deep Locally Connected Networks [2013]
- 三、Fast Localized Spectral Filtering On Graph [2016]
- 四、GCN [2016]
- 五、神经图指纹 [2015]
- 六、GGS-NN [2016]
- 七、PATCHY-SAN [2016]
- 八、GraphSAGE [2017]
- 九、GAT [2017]
- 十、R-GCN [2017]
- 十一、 AGCN [2018]
- 十二、FastGCN [2018]
- 十三、PinSage [2018]
- 十四、GCMC [2017]
- 十五、JK-Net [2018]
- 十六、PPNP [2018]
- 十七、VRGCN [2017]
- 十八、ClusterGCN [2019]
- 十九、LDS-GNN [2019]
- 二十、DIAL-GNN [2019]
- 二十一、HAN [2019]
- 二十二、HetGNN [2019]
- 二十三、HGT [2020]
- 二十四、GPT-GNN [2020]
- 二十五、Geom-GCN [2020]
- 二十六、Graph Network [2018]
- 二十七、GIN [2019]
- 二十八、MPNN [2017]
- 二十九、UniMP [2020]
- 三十、Correct and Smooth [2020]
- 三十一、LGCN [2018]
- 三十二、DGCNN [2018]
- 三十三、AS-GCN
- 三十四、DGI [2018]
- 三十五、DIFFPOLL [2018]
- 三十六、DCNN [2016]
- 三十七、IN [2016]
- 图神经网络 2
- 图神经网络 3
- 推荐算法(传统方法)
- 一、Tapestry [1992]
- 二、GroupLens [1994]
- 三、ItemBased CF [2001]
- 四、Amazon I-2-I CF [2003]
- 五、Slope One Rating-Based CF [2005]
- 六、Bipartite Network Projection [2007]
- 七、Implicit Feedback CF [2008]
- 八、PMF [2008]
- 九、SVD++ [2008]
- 十、MMMF 扩展 [2008]
- 十一、OCCF [2008]
- 十二、BPR [2009]
- 十三、MF for RS [2009]
- 十四、 Netflix BellKor Solution [2009]
- 推荐算法(神经网络方法 1)
- 一、MIND [2019](用于召回)
- 二、DNN For YouTube [2016]
- 三、Recommending What Video to Watch Next [2019]
- 四、ESAM [2020]
- 五、Facebook Embedding Based Retrieval [2020](用于检索)
- 六、Airbnb Search Ranking [2018]
- 七、MOBIUS [2019](用于召回)
- 八、TDM [2018](用于检索)
- 九、DR [2020](用于检索)
- 十、JTM [2019](用于检索)
- 十一、Pinterest Recommender System [2017]
- 十二、DLRM [2019]
- 十三、Applying Deep Learning To Airbnb Search [2018]
- 十四、Improving Deep Learning For Airbnb Search [2020]
- 十五、HOP-Rec [2018]
- 十六、NCF [2017]
- 十七、NGCF [2019]
- 十八、LightGCN [2020]
- 十九、Sampling-Bias-Corrected Neural Modeling [2019](检索)
- 二十、EGES [2018](Matching 阶段)
- 二十一、SDM [2019](Matching 阶段)
- 二十二、COLD [2020 ] (Pre-Ranking 模型)
- 二十三、ComiRec [2020](https://www.wenjiangs.com/doc/0b4e1736-ac78)
- 二十四、EdgeRec [2020]
- 二十五、DPSR [2020](检索)
- 二十六、PDN [2021](mathcing)
- 二十七、时空周期兴趣学习网络ST-PIL [2021]
- 推荐算法之序列推荐
- 一、FPMC [2010]
- 二、GRU4Rec [2015]
- 三、HRM [2015]
- 四、DREAM [2016]
- 五、Improved GRU4Rec [2016]
- 六、NARM [2017]
- 七、HRNN [2017]
- 八、RRN [2017]
- 九、Caser [2018]
- 十、p-RNN [2016]
- 十一、GRU4Rec Top-k Gains [2018]
- 十二、SASRec [2018]
- 十三、RUM [2018]
- 十四、SHAN [2018]
- 十五、Phased LSTM [2016]
- 十六、Time-LSTM [2017]
- 十七、STAMP [2018]
- 十八、Latent Cross [2018]
- 十九、CSRM [2019]
- 二十、SR-GNN [2019]
- 二十一、GC-SAN [2019]
- 二十二、BERT4Rec [2019]
- 二十三、MCPRN [2019]
- 二十四、RepeatNet [2019]
- 二十五、LINet(2019)
- 二十六、NextItNet [2019]
- 二十七、GCE-GNN [2020]
- 二十八、LESSR [2020]
- 二十九、HyperRec [2020]
- 三十、DHCN [2021]
- 三十一、TiSASRec [2020]
- 推荐算法(综述)
- 多任务学习
- 系统架构
- 实践方法论
- 深度强化学习 1
- 自动代码生成
工具
- CRF
- lightgbm
- xgboost
- scikit-learn
- spark
- numpy
- matplotlib
- pandas
- huggingface_transformer
- 一、Tokenizer
- 二、Datasets
- 三、Model
- 四、Trainer
- 五、Evaluator
- 六、Pipeline
- 七、Accelerate
- 八、Autoclass
- 九、应用
- 十、Gradio
Scala
- 环境搭建
- 基础知识
- 函数
- 类
- 样例类和模式匹配
- 测试和注解
- 集合 collection(一)
- 集合collection(二)
- 集成 Java
- 并发
二十七、mT5 [2020]
目前的自然语言处理
pipeline
经常使用迁移学习,即在一个数据丰富的任务上对模型进行预训练,然后再对下游感兴趣的任务进行微调。这种模式的成功部分归功于预训练模型的parameter checkpoints
的发布。这些checkpoints
使NLP
社区的成员能够在许多任务上迅速获得强大的性能,而不需要自己进行昂贵的预训练。作为一个例子,《Exploring the limits of transfer learning with a unified text-to-text transformer》
发布的Text-to-Text Transfer Transformer: T5
模型的pre-trained checkpoints
已经被用来在许多benchmarks
上取得SOTA
的结果。不幸的是,这些语言模型中的许多都是只对英语文本进行预训练的。鉴于世界上大约80%
的人口不讲英语,这极大地限制了它们的使用。社区解决这种English-centricity
问题的方式之一是发布了数十种模型,每一种模型是在单一的non-English
语言上进行预训练的。一个更普遍的解决方案是制作多语言模型multi-lingual models
,这些模型在多种语言的混合体上进行预训练。这类流行的模型有mBERT
、mBART
、XLM-R
,它们分别是BERT
、BART
和RoBERTa
的多语言变体。在论文
《mT5: A massively multilingual pre-trained text-to-text transformer》
中,作者继续这一传统,发布了T5
的多语言变体mT5
。论文对mT5
的目标是产生一个大规模的多语言模型,并尽可能少地偏离用于创建T5
的配方。因此,mT5
继承了T5
的所有基因,如:通用的text-to-text
格式、基于大规模经验研究的设计、以及规模。为了训练mT5
,论文引入了C4
数据集的一个多语言变体,称为mC4
。为了验证
mT5
的性能,论文包含了在几个benchmark
数据集上的结果,在许多情况下显示出SOTA
的性能。论文发布了预训练模型和代码,以便社区可以利用他们的工作。
27.1 T5 和 C4 的背景
T5
是一个预训练的语言模型,其主要区别在于它对所有text-based
的NLP
问题使用了统一的"text-to-text"
格式。这种方法对于生成式任务(如机器翻译或抽象摘要)来说是很自然的,因为任务格式要求模型以某些输入为条件来生成文本。对于分类任务来说,这种方法比较特殊:在分类任务中,
T5
被训练来输出标签的文本(例如情感分类中的"positive"
或"negative"
),而不是一个类别ID
。这种方法的主要优点是:它允许对每个任务使用完全相同的训练目标(最大似然),这实际上意味着一组超参数可以用于任何下游任务的有效微调。
《Unifying question answering and text classification via span extraction》
和《The natural language decathlon: Multitask learning as question answering》
提出了类似的统一框架。给定这种任务格式的
sequence-to-sequence
的结构,T5
使用《Attention is all you need》
最初提出的basic
的encoder-decoder Transformer
架构。T5
在masked language modeling
的"span-corruption" objective
上进行预训练,其中input tokens
的consecutive spans
被替换为a mask token
,模型被训练为重建masked-out tokens
(而不是完整的原始序列)。T5
的另一个区别因素是它的规模,预训练的模型规模从60M
到11B
个参数。这些模型是在大约1T
个token
的数据上预训练的。未标记数据来自于C4
数据集,该数据集收集了约750GB
的英文文本,来源是公共的Common Crawl
网络爬虫。C4
包括启发式方法,只抽取自然语言(移除了模板和其他乱七八糟的东西),此外还有数据去重、以及语言过滤(仅保留英文文本,当然由于语言检测不是100%
准确所以可能还有极其少量的非英文文本)。T5
的预训练objective
、模型架构、scaling strategy
、以及许多其他设计选择都是根据《Exploring the limits of transfer learning with a unified text-to-text transformer》
详细描述的大规模实验研究来选择的。
27.2 mC4 和 mT5
我们在本文中的目标是:创建一个大规模的多语言模型,尽可能地遵循
T5
的配方。为此,我们开发了一个涵盖101
种语言的C4
数据集的扩展版本,并对T5
进行了调整从而更好地适应这种多语言特性。
27.2.1 mC4
C4
数据集被明确地设计为只有英语:任何没有被langdetect
赋予至少99%
的英语概率的网页都被丢弃了。相比之下,对于mC4
,我们使用cld3
来识别超过100
种语言。由于其中一些语言在互联网上相对稀少,因此我们利用了Common Crawl
迄今为止发布的所有71
个月的网络爬虫数据。这比用于C4
的源数据要多得多,因为仅2019
年4
月的网络爬虫就足以提供大量的英语数据。C4
中一个重要的启发式过滤步骤是:删除那些没有以英语结束标点符号所结束的行。由于这对许多语言来说是不合适的,因此我们采用了一个"line length filter"
,要求网页至少包含三行共计200
个或更多的字符的文本。此外,我们将遵循C4
的过滤方法,在不同的文档中对行文本去重,并过滤含有bad words
的页面。最后,我们使用cld3
检测每个页面的主要语言,并移除置信度低于70%
的页面。在应用这些过滤之后,我们将剩余的网页按语言分组,并将所有拥有
10k
个或更多网页的语言纳入语料库。这产生了107
种由cld3
定义的"languages"
的文本。然而,我们注意到,其中六种语言只是同一口语的文字变体(例如,ru
是西里尔文字的俄语、ru-Latn
是拉丁文字的俄语)。每种语言的网页计数的柱状图如下图所示。
详细的数据集统计,包括每种语言的
token
数量,如下表所示。其中,mT5
这一列表示mT5
训练数据中,来自给定语言的数据的占比。这个占比是经过 $ \alpha=0.3 $ 的指数平滑的(即,采样策略),所以和Tokens/Pages
比例差异较大。中文语料的规模是英文语料的
1.5%
左右,非常非常少。
27.2.2 mT5
我们用于
mT5
的模型结构和训练程序与T5
非常相似。具体而言,我们以T5.1.1
(https://github.com/google-research/text-to-text-transfer-transformer/blob/master/released_checkpoints.md#t511
) 为基础,该配方通过使用GeGLU
非线性函数、 在较大的模型中缩放 $ d_\text{model} $ 而不是 $ d_\text{ff} $ 、在未标记数据上不采用dropout
来预训练,从而改善T5
。注意,原始的
T5
论文中,在较大的模型中缩放 $ d_\text{ff} $ ,因为作者说 :“我们选择扩大 $ d_\text{ff} $ 的规模,是因为现代加速器(如我们训练模型的TPU
)对于像Transformer
的前馈网络中的大型稠密矩阵乘法是最有效的。”预训练多语言模型的一个主要因素是如何对每种语言的数据进行采样。归根结底,这种选择是一种零和游戏:
如果对
low-resource
语言的采样过于频繁,模型可能会过拟合。如果
high-resource
语言采样不足,模型就会欠拟合。
因此,我们采取了(
《Unsupervised cross-lingual representation learning at scale》
、《Massively multilingual neural machine translation in the wild: Findings and challenges》
)中使用的方法,通过按照概率 $ p(L)\propto |L|^\alpha $ 采样来提高low-resource
语言,其中: $ p(L) $ 是在预训练期间从给定语言中采样的概率, $ |L| $ 是该语言中的样本数量。超参数
$ \alpha $ (通常 $ 0\le \alpha \lt 1 $ ) 允许我们控制在low-resource
语言上训练的概率的提升程度。之前的工作所使用的值包括:用于mBERT
的 $ \alpha = 0.7 $ 、用于XLM-R
的 $ \alpha = 0.3 $ 、用于MMNMT
的 $ \alpha = 0.2 $ 。我们尝试了所有这三个值,发现 $ \alpha = 0.3 $ 在high-resource
语言和low-resource
语言的性能之间给出了一个合理的折中。我们的模型涵盖了超过
100
种语言,这就需要一个更大的词表。遵从XLM-R
,我们将词表规模增加到250K
个wordpieces
。与T5
一样,我们使用SentencePiece
的wordpiece
模型,该wordpiece
模型在训练期间使用相同的语言采样率进行训练。为了适应像中文这样的大字符集的语言,我们使用了
0.99999
的字符覆盖率character coverage
,但也启用了SentencePiece
的"byte-fallback"
功能从而确保任何字符串都可以被唯一编码。byte-fallback
:将UNK token
回退到UTF-8
字节序列。
27.2.3 和相关模型的比较
为了说明我们的新模型的背景,我们提供了一个与现有的大规模多语言预训练语言模型的简要比较。为了简洁起见,我们把重点放在支持几十种以上语言的模型上。下表给出了
mT5
与最相似模型的high-level
比较。mBERT
是BERT
的多语言版本。与我们使用mT5
的方法类似,mBERT
尽可能地遵循BERT
的配方(相同的架构、objective
等)。主要的区别是训练集(指的是和BERT
的区别,而不是和mT5
的区别)。mBERT
不是在English Wikipedia
和Toronto Books Corpus
上进行训练(这是BERT
的训练集),而是在Wikipedia
上训练多达104
种语言。因为
Toronto Books Corpus
是英文的,而不是多语言的。XLM
也是基于BERT
,但包括改进的方法来预训练多语种语言模型。许多预训练的XLM
版本已经发布;最大规模的多语言变体是在Wikipedia
的100
种语言上训练的。XLM-R
是XLM
的改进版本,它基于RoBERTa
模型。XLM-R
是在Common Crawl
的100
种语言的数据上用跨语言的masked language modeling objective
进行训练。为了提高预训练数据的质量,首先在
Wikipedia
上训练一个n-gram
语言模型,只有在n-gram
模型赋予它高的可能性时,才会保留Common Crawl
中的一个页面(《Ccnet: Extracting high quality monolingual datasets from web crawl data》
)。mBART
是一个基于BART
的多语言encoder-decoder
模型。mBART
是在与XLM-R
相同的数据中的25
种语言子集上,结合span masking
和sentence shuffling
的objective
进行训练。MARGE
是一个多语言encoder-decoder
模型,它被训练为通过检索其他语言的文档来重建一种语言的文档。它使用来自Wikipedia
和CC-News
的26
种语言的数据。
27.3 实验
数据集:为了验证
mT5
的性能,我们在XTREME
多语言benchmark
的6
个任务上评估了我们的模型:XNLI entailment task
覆盖14
种语言。XQuAD/MLQA/TyDi QA
阅读理解benchmark
分别覆盖10/7/11
种语言。来自
XTREME
的WikiAnn
的Named Entity Recognition: NER
数据集覆盖40
种语言。PAWS-X paraphrase identification dataset
覆盖7
种语言。
我们将所有的任务转化为
text-to-text
的格式,即生成label text
(XNLI
和PAWS-X
)、entity tags and labels
(WikiAnn NER
)、或者直接生成答案(XQuAD
、MLQA
和TyDi QA
)。对于NER
,如果有多个实体,那么它们将按照出现的顺序拼接起来;如果没有实体,那么target
文本就是"None"
。我们考虑这些任务的变体,即模型只在英语数据上进行微调(
"zero-shot"
)、或在每个目标语言的数据(这些数据来自于从英语利用机器翻译而来)上进行微调("translate-train"
)。由于仅在英语数据上微调,因此模型没有见过除了英语以外的其他语言的数据,因此称为
"zero-shot"
。为简洁起见,关于这些
benchmark
的进一步细节请参考《Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization》
。配置:
对于预训练:
按照最初的
T5
配方,我们考虑五种模型尺寸:Small
(300M
参数)、Base
(600M
参数)、Large
(1B
参数)、XL
(4B
参数)、XXL
(13B
参数)。与相应的T5
模型变体相比,参数数量的增加来自于mT5
中使用的较大的词表。batch size = 1024
,输入序列长度为1024
个token
,预训练步数为1M
(对应于总计大约1T
个input token
)。这与T5
的预训练量相同,约为XLM-R
的1/6
。由于时间限制,我们只报告了mt5-XXL
训练750K
步的结果。最终结果和进一步的实验将在我们的公共代码库中更新。我们使用
T5
在预训练时使用的反平方根学习率调度,学习率设置为 $ 1/\sqrt{\max(n,k)} $ ,其中 $ n $ 是当前的步数, $ 10^4 $ 是warm-up
步的数量。按照
T5.1.1
的配方,我们在预训练期间不应用dropout
。我们使用与
T5
相同的self-supervised objective
,15%
的token
被掩码、平均noise span length
为3
。
对于微调:
我们对所有任务使用
0.001
的恒定学习率和0.1
的dropout
。在
zero-shot setting
中,我们对XNLI
使用batch size
为 $ 2^{20} $ 、对PAWS-X/NER/XQuAD/MLQA/TyDi QA
使用batch size
为 $ 2^{16} $ 。对于
early stopping
,我们每200
步保存一个checkpoint
,并选择在验证集上具有最高性能的checkpoint
。
Table 2
列出了我们的主要结果,Table 6 ~ 11
列出了每项任务每种语言的结果。我们最大的模型mT5-XXL
在我们考虑的所有任务中都达到了SOTA
。请注意,与我们的模型不同,
InfoXLM
得益于平行训练数据parallel training data
,而X-STILT
则利用了与目标任务相似的任务的labeled data
。总的来说,我们的结果强调了模型容量在跨语言representation learning
中的重要性,并表明scaling up
一个简单的预训练配方可以成为更复杂技术的一种可行的替代,其中这些更复杂的技术依赖于语言模型过滤、平行数据、或中间任务。在
"translate-train" setting
中, 我们还在所有XTREME
分类任务和问答任务上匹配或超过SOTA
的技术。对于这些任务,我们对labeled English data
和机器翻译的组合进行了微调。这允许与Filter
以及XLM-R
基线进行直接比较。然而,请注意,这个设置不同于XTREME "translate-train"
(《Xtreme: A massively multilingual multi-task benchmark for evaluating cross-lingual generalization》
),它不包括英语数据。据观察,与专门为某一语言训练的类似规模的 "专用" 模型相比,大规模多语言模型在该语言上的表现不佳。为了量化这种情况,我们比较了
mT5
和T5
在SQuAD
阅读理解benchmark
上微调后的表现。结果如下表所示,其中T5
的结果来自原始论文。虽然
Small
和Base
的mT5
模型落后于它们对应的英语T5
模型,但我们发现大型模型缩小了差距。这表明可能存在一个转折点,过了这个转折点,模型就有足够的能力有效地学习101
种语言。T5
仅在英文语料上训练。消融研究:我们执行了六种消融研究,以
Large
模型作为baseline
:将
dropout
增加到0.1
,希望能减轻对low-resource
语言的过拟合。将序列长度减少到
512
,就像在T5
中使用的那样。将预训练
objective
中的平均noise span length
增加到10
,因为我们观察到的每个token
的字符比T5
更少。调整语言采样指数
$ \alpha $ 为{0.2, 0.7}
,分别被MMNM
和mBERT
所使用。在
mC4 data pipeline
中关闭"line length filter"
。用
103
种语言的维基百科数据来补充mC4
。为什么用更多数据反而效果下降?论文没有解释其中的原因。个人猜测是引入更多数据,但是没有相应地调整语言采样指数
$ \alpha $ ,导致采样策略次优?
Table 4
显示了这些消融对XNLI zero-shot
准确性的影响。在每种情况下,XNLI
的平均得分都低于mT5-Large
基线,证明了我们选择的设置是合理的。line length filter
提供了+2
点的提升,证明了从Common Crawl
中过滤低质量的页面是有价值的。将语言采样指数
$ \alpha $ 提高到0.7
,预期会提高high-resource
语言的性能(如俄语81.5 -> 82.8
),同时损害low-resource
语言的性能(如Swahili
75.4 -> 70.6
),平均效果为负。相反,将语言采样指数
$ \alpha $ 降低到0.2
,会使一种长尾语言略微提高(Urdu
73.5 -> 73.9
),但在其他地方则有害。
Table 12
和Table 13
分别提供了XNLI
上每一种语言的详细指标,以及我们在zero-shot XQuAD
上的消融性能,显示了大致相同的趋势。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论