返回介绍

数学基础

统计学习

深度学习

工具

Scala

三、对数几率回归

发布于 2023-07-17 23:38:26 字数 3720 浏览 0 评论 0 收藏 0

  1. 线性回归不仅可以用于回归任务,还可以用于分类任务。

3.1 二分类模型

  1. 考虑二分类问题。

    给定数据集 $ MathJax-Element-136 $ 。

    • 考虑到 $ MathJax-Element-140 $ 取值是连续的,因此它不能拟合离散变量。

      可以考虑用它来拟合条件概率 $ MathJax-Element-138 $ ,因为概率的取值也是连续的。

    • 但是对于 $ MathJax-Element-139 $ (若等于零向量则没有什么求解的价值), $ MathJax-Element-140 $ 取值是从 $ MathJax-Element-141 $ ,不符合概率取值为 , $ MathJax-Element-142 $ 因此考虑采用广义线性模型。

      最理想的是单位阶跃函数:

    $ p(y=1\mid\mathbf{\vec x})=\begin{cases} 0,& z\lt 0\\ 0.5,& z = 0\\ 1,& z\gt 0\\ \end{cases} \quad, z=\mathbf {\vec w} \cdot \mathbf {\vec x}+b $
    • 但是阶跃函数不满足单调可微的性质,不能直接用作 $ MathJax-Element-143 $ 。

      对数几率函数(logistic function)就是这样的一个替代函数:

      $ p(y=1\mid\mathbf{\vec x})=\frac{1}{1+e^{-z}}\quad , z=\mathbf {\vec w} \cdot \mathbf {\vec x}+b $

      这样的模型称作对数几率回归(logistic regressionlogit regression)模型。

  2. 由于 $ MathJax-Element-144 $ ,则有:

    $ \ln \frac{P(y=1\mid\mathbf{\vec x})}{P(y=0\mid\mathbf{\vec x})}=z=\mathbf {\vec w} \cdot \mathbf {\vec x}+b $
    • 比值 $ MathJax-Element-145 $ 表示样本为正例的可能性比上反例的可能性,称作几率(odds)。几率反映了样本作为正例的相对可能性。

      几率的对数称作对数几率(log odds,也称作logit)。

    • 对数几率回归就是用线性回归模型的预测结果去逼近真实标记的对数几率。

  3. 虽然对数几率回归名字带有回归,但是它是一种分类的学习方法。其优点:

    • 直接对分类的可能性进行建模,无需事先假设数据分布,这就避免了因为假设分布不准确带来的问题。
    • 不仅预测出来类别,还得到了近似概率的预测,这对许多需要利用概率辅助决策的任务有用。
    • 对数函数是任意阶可导的凸函数,有很好的数学性质,很多数值优化算法都能直接用于求取最优解。

3.2 参数估计

  1. 给定训练数据集 $ MathJax-Element-146 $ ,其中 $ MathJax-Element-147 $ 。可以用极大似然估计法估计模型参数,从而得出模型。

    为了便于讨论,将参数 $ MathJax-Element-236 $ 吸收进 $ MathJax-Element-234 $ 中。

    令:

    $ \mathbf{\vec w}=(w_{1},w_{2},\cdots,w_{n},b)^{T} \in \mathbb R^{n+1}\\ \mathbf{\vec x}=(x_{1},x_{2}\cdots,x_{n},1)^{T}\in \mathbb R^{n+1} $

    $ p(y=1\mid\mathbf {\vec x})=\pi(\mathbf {\vec x})=\frac{\exp(\mathbf{\vec w\cdot \vec x})}{1+\exp(\mathbf{\vec w\cdot \vec x})}\\ p(y=0\mid \mathbf {\vec x})=1-\pi(\mathbf {\vec x}) $

    则似然函数为: $ MathJax-Element-150 $ 。

    对数似然函数为:

    $ L(\mathbf {\vec w})=\sum_{i=1}^{N}[\tilde y_i\log\pi(\mathbf {\vec x}_i)+(1-\tilde y_i)\log(1-\pi(\mathbf {\vec x}_i))]\\ =\sum_{i=1}^{N}[\tilde y_i\log\frac{\pi(\mathbf {\vec x}_i)}{1-\pi(\mathbf {\vec x}_i)}+\log(1-\pi(\mathbf {\vec x}_i))] $
  2. 由于 $ MathJax-Element-151 $ ,因此:

    $ L(\mathbf {\vec w})=\sum_{i=1}^{N}[\tilde y_i(\mathbf{\vec w\cdot \vec x}_i)-\log(1+\exp(\mathbf {\vec w} \cdot \mathbf {\vec x}_i))] $

    则需要求解最优化问题:

    $ \mathbf {\vec w}^*=\arg\max_{\mathbf {\vec w}} L(\mathbf {\vec w})=\arg\max_{\mathbf {\vec w}} \sum_{i=1}^{N}[\tilde y_i(\mathbf{\vec w\cdot \vec x}_i)-\log(1+\exp(\mathbf {\vec w} \cdot \mathbf {\vec x}_i))] $

    最终 logistic 回归模型为:

    $ p(y=1\mid \mathbf {\vec x})=\frac{\exp(\mathbf{\vec w}^*\cdot \mathbf{ \vec x})}{1+\exp(\mathbf{ \vec w}^*\cdot \mathbf{\vec x})}\\ p(y=0\mid \mathbf {\vec x})=\frac{1}{1+\exp(\mathbf{ \vec w}^*\cdot \mathbf{\vec x})} $
  3. logistic 回归的最优化问题,通常用梯度下降法或者拟牛顿法来求解。

3.3 多分类模型

  1. 可以推广二分类的 logistic 回归模型到多分类问题。

  2. 设离散型随机变量 $ MathJax-Element-152 $ 的取值集合为: $ MathJax-Element-153 $ ,则多元 logistic 回归模型为:

    $ p(y=k\mid\mathbf {\vec x})=\frac{\exp(\mathbf {\vec w}_k \cdot \mathbf {\vec x})}{1+\sum_{j=1}^{K-1}\exp(\mathbf {\vec w}_j \cdot \mathbf {\vec x})},\quad k=1,2,\cdots,K-1\\ p(y=K\mid\mathbf {\vec x})=\frac{1}{1+\sum_{j=1}^{K-1}\exp(\mathbf {\vec w}_j \cdot \mathbf {\vec x})} $

    其中 $ MathJax-Element-154 $ 。

    其参数估计方法类似二项 logistic 回归模型。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文