六、ELMo

发布于 2023-07-17 23:38:25 字数 20421 浏览 0 评论 0 收藏 0

fastText 是 Facebook AI Research 在 2016 年开源的文本分类器，其提出是在论文 《Bag of Tricks for Efficient Text Classification》 中。目前 fastText 作为文本分类的基准模型。
fastText 的优点是：在保持分类效果的同时，大大缩短了训练时间。
- 在 8个数据集上，不同模型的测试误差：
- 单个 epoch 的训练时间（char-CNN 、VDCNN 和 fastText ）：
fastText 的网络结构与 word2vec 的 CBOW 非常相似。区别在两个地方：
- 输入：单篇文档的所有单词都作为网络的输入。因此这里的参数 C 是动态的，它等于当前文档的单词数量。
- 输出：这里网络的输出是各类别的概率。通常文本分类的类别 $K$ $ K $ 远小于词典大小 $V$ $ V $ ，因此可以不必进行分层 softmax 和负采样。
隐向量为所有输入单词映射结果的均值：
$\begin{matrix} (110) & \vec{h} = \frac{1}{C} W^{T} ({\vec{x}}_{1} + {\vec{x}}_{2} + \dots + {\vec{x}}_{C}) = \frac{1}{C} ({\vec{w}}_{I_{1}} + {\vec{w}}_{I_{2}} + \dots + {\vec{w}}_{I_{C}}) \end{matrix}$
其中： $I_{i}$ $ I_i $ 表示第 $i$ $ i $ 个输入单词在词汇表 $V$ $ \mathbb V $ 中的编号， ${\vec{w}}_{j}$ $ \mathbf{\vec w}_j $ 为矩阵 $W$ $ \mathbf W $ 的第 $j$ $ j $ 行，它是对应输入单词的输入向量。
单个样本的损失函数为（ $k^{*}$ $ k^* $ 为真实类别标签）：
$\begin{matrix} (111) & E = - u_{k^{*}} + \log \sum_{k = 1}^{K} \exp (u_{k}) = - {\vec{w}}_{k^{*}}^{'} \cdot \vec{h} + \log \sum_{k = 1}^{K} \exp ({\vec{w}}_{k}^{'} \cdot \vec{h}) \end{matrix}$
定义每个输出单元的预测误差 $e_{k} = \frac{\partial E}{\partial u_{k}} = y_{k} - t_{k}$ $ e_k=\frac{\partial E}{\partial u_k}=y_k-t_k $ ，与CBOW 多个单词上下文的推导相同：
- 更新 $W^{'}$ $ \mathbf W^\prime $ ：
  $\begin{matrix} (112) & {\vec{w}}_{k}^{' (n e w)} = {\vec{w}}_{k}^{' (o l d)} - η e_{k} \vec{h}, k = 1, 2, \dots, K \end{matrix}$
  其中 $\vec{h} = \frac{1}{C} ({\vec{w}}_{I_{1}} + {\vec{w}}_{I_{2}} + \dots + {\vec{w}}_{I_{C}})$ $ \mathbf{\vec h}=\frac 1C (\mathbf{\vec w}_{I_1}+\mathbf{\vec w}_{I_2}+\cdots+\mathbf{\vec w}_{I_C}) $ 。
- 更新 $W$ $ \mathbf W $ ：
  $\begin{matrix} (113) & {\vec{w}}_{I_{i}}^{(n e w)} = {\vec{w}}_{I_{i}}^{(o l d)} - \frac{1}{C} η \vec{EH}, i = 1, 2, \dots, C \end{matrix}$
  其中：
  - $\vec{EH} = W^{'} \vec{e} = \sum_{k = 1}^{K} e_{k} {\vec{w}}_{k}^{'}$ $ \mathbf{\overrightarrow {EH}} = \mathbf W^\prime \mathbf{\vec e} =\sum_{k=1}^Ke_k \mathbf{\vec w}^{\prime }_k $ ，它是所有类别输出向量的加权和，其权重为 $e_{k}$ $ e_k $ 。
  - $I_{i}$ $ I_i $ 为第 $i$ $ i $ 个输入单词在词表 $V$ $ \mathbb V $ 中的编号。
如果考虑词序则分类的效果还可以进一步提升，因此在 fastText 中可以引入 N-gram 特征。如：2-gram 合并文档中连续的2个单词作为特征。
fastText 生成的词向量嵌入的是分类的信息，而word2vec 生成的词向量更多的嵌入了通用语义信息。
- fastText 词向量得到的相似度是基于分类类别的相似。如：商品评论情感分类任务中，好吃 和 好玩 是相似的，因为它们都是正向情感词。
- word2vec 词向量得到的相似度是基于语义的相似。此时 好吃 和 美味 是相似的，因为这二者经常出现在类似的上下文中。