返回介绍

数学基础

统计学习

深度学习

工具

Scala

1.1 人工合成数据生成

发布于 2023-07-17 23:38:23 字数 2807 浏览 0 评论 0 收藏 0

  1. 先前的工作表明:多任务学习模型的性能高度依赖于数据中固有的任务相关性。然而,实际应用中很难直接研究任务相关性如何影响多任务模型,因为在实际应用中我们无法轻易改变任务之间的相关性并观察其效果。为了对这种影响建立实证研究,我们首先使用人工合成数据,因为这样我们可以轻松地度量和控制任务相关性。

    受到 Kang 等人的启发,我们生成了两个回归任务,并使用这两个任务 labelPearson correlation 作为任务相关性的定量指标。由于我们关注于 DNN 模型(而不是线性模型),所以我们将回归模型设置为正弦函数的组合。

    具体而言,我们通过以下步骤来生成人工合成数据:

    • 给定输入特征向量的维度 $ d $ ,我们随机生成两个正交的单位向量 $ \mathbf{\vec u}_1,\mathbf{\vec u}_2\in \mathbb R^d $ ,即:

      $ \mathbf{\vec u}_1^\top \mathbf{\vec u}_2 = 0,\quad \left\|\mathbf{\vec u}_1\right\|_2=\left\|\mathbf{\vec u}_2\right\|_2 = 1 $
    • 给定一个缩放常量 $ c $ 、以及一个相关系数分 correlation score $ -1\le p\le 1 $ ,生成两个权重向量 $ \mathbf{\vec w}_1,\mathbf{\vec w}_2 $ ,使得:

      $ \mathbf{\vec w}_1 = c\mathbf{\vec u}_1, \quad \mathbf{\vec w}_2=c\left(p\times \mathbf{\vec u}_1+\sqrt{(1-p^2)}\times \mathbf{\vec u}_2\right) $
    • 随机采样一个输入样本 $ \mathbf{\vec x}\in \mathbb R^{d} $ ,其中每个元素来自于标准正态分布 $ \mathcal N(0,1) $ 。

    • 为两个回归任务生成两个标签 $ y_1,y_2 $ :

      $ y_1=\mathbf{\vec w}_1^\top\mathbf{\vec x} + \sum_{i=1}^m \sin\left(\alpha_i\mathbf{\vec w}_1^\top\mathbf{\vec x}+\beta_i\right)+\epsilon_1\\y_2=\mathbf{\vec w}_2^\top\mathbf{\vec x} + \sum_{i=1}^m \sin\left(\alpha_i\mathbf{\vec w}_2^\top\mathbf{\vec x}+\beta_i\right)+\epsilon_2 $

      其中:

      • $ \alpha_1,\beta_i,i=1,\cdots,m $ 是给定的参数,它们控制了正弦函数的形状。
      • $ \epsilon_1,\epsilon_2 $ 都是独立同分布的随机变量,它们来自于正态分布 $ \mathcal N(0,0.01) $ 。
    • 重复采样 $ \mathbf{\vec x} $ 和 $ y_1,y_2 $ ,直到生成足量的数据。

  2. 由于采用非线性数据生成过程,因此要生成具有给定皮尔逊相关系数 label 的任务并非易事。相反,我们控制权重向量的余弦相似度,即 $ \cos\left(\mathbf{\vec w}_1,\mathbf{\vec w}_2\right) = p $ ,然后度量结果label 的皮尔逊相关系数。

    注意到在线性情况下:

    $ y_1=\mathbf{\vec w}_1^\top\mathbf{\vec x} +\epsilon_1,\quad y_2=\mathbf{\vec w}_2^\top\mathbf{\vec x}+\epsilon_2 $

    $ y_1,y_2 $ 的标签皮尔逊相关系数label Pearson correlation 刚好是 $ p $ 。

    在非线性情况下:

    $ y_1=\mathbf{\vec w}_1^\top\mathbf{\vec x} + \sum_{i=1}^m \sin\left(\alpha_i\mathbf{\vec w}_1^\top\mathbf{\vec x}+\beta_i\right)+\epsilon_1\\ y_2=\mathbf{\vec w}_2^\top\mathbf{\vec x} + \sum_{i=1}^m \sin\left(\alpha_i\mathbf{\vec w}_2^\top\mathbf{\vec x}+\beta_i\right)+\epsilon_2 $

    此时 $ y_1,y_2 $ 也是正相关的,如下图所示。下图给出了标签皮尔逊相关系数(纵轴)和权重余弦相似度weight cosine similarity (横轴,即 $ p $ 值)之间的关系。对于每个 $ p $ 值,我们生成 10k 个带有两个标签的数据点,并计算这两个标签之间的皮尔逊相关系数。我们我们重复这个过程,并绘制均值,其中 error bar 表示 100 次实验中标准差的 2 倍。

    在本文的剩余部分,为简单起见,我们将权重向量的余弦相似度 $ p $ 称作任务相关系数task correlation

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文