返回介绍

数学基础

统计学习

深度学习

工具

Scala

三、 最大熵马尔科夫模型MEMM

发布于 2023-07-17 23:38:25 字数 2866 浏览 0 评论 0 收藏 0

  1. HMM 存在两个基本假设:

    • 观察值之间严格独立。
    • 状态转移过程中,当前状态仅依赖于前一个状态(一阶马尔科夫模型)。

    如果放松第一个基本假设,则得到最大熵马尔科夫模型MEMM

  2. 最大熵马尔科夫模型并不通过联合概率建模,而是学习条件概率 $ MathJax-Element-427 $ 。

    它刻画的是:在当前观察值 $ MathJax-Element-432 $ 和前一个状态 $ MathJax-Element-433 $ 的条件下,当前状态 $ MathJax-Element-436 $ 的概率。

    MEMM

  3. MEMM通过最大熵算法来学习。

    根据最大熵推导的结论:

    $ P_\mathbf{\vec w}(y\mid \vec{\mathbf x})=\frac{1}{Z_\mathbf{\vec w}(\vec{\mathbf x})} \exp\left(\sum_{i=1}^{n}w_i f_i(\vec{\mathbf x},y)\right)\\ Z_\mathbf{\vec w}(\vec{\mathbf x})=\sum_y \exp\left(\sum_{i=1}^{n}w_i f_i(\vec{\mathbf x},y)\right) $

    这里 $ MathJax-Element-431 $ 就是当前观测 $ MathJax-Element-432 $ 和前一个状态 $ MathJax-Element-433 $ ,因此: $ MathJax-Element-434 $ 。这里 $ MathJax-Element-435 $ 就是当前状态 $ MathJax-Element-436 $ ,因此: $ MathJax-Element-437 $ 。因此得到:

    $ P_\mathbf{\vec w}(i_t\mid i_{t-1},o_t)=\frac{1}{Z_\mathbf{\vec w}(i_{t-1},o_t)} \exp\left(\sum_{i=1}^{n}w_i f_i(i_t, i_{t-1},o_t)\right)\\ Z_\mathbf{\vec w}(i_{t-1},o_t)=\sum_{i_t} \exp\left(\sum_{i=1}^{n}w_i f_i(i_t, i_{t-1},o_t)\right) $
  4. MEMM 的参数学习使用最大熵中介绍的IIS算法或者拟牛顿法,解码任务使用维特比算法。

  5. 标注偏置问题:

    如下图所示,通过维特比算法解码得到:

    $ P(1\rightarrow 1\rightarrow 1\rightarrow 1)= 0.4\times 0.45\times 0.5 = 0.09 \\ P(2\rightarrow 2\rightarrow 2\rightarrow 2)= 0.2\times 0.3 \times 0.3 = 0.018\\ P(1\rightarrow 2\rightarrow 1\rightarrow 2)= 0.6 \times 0.2\times 0.5 = 0.06\\ P(1\rightarrow 1\rightarrow 2\rightarrow 2)= 0.4 \times 0.55\times 0.3 = 0.066 $

    可以看到:维特比算法得到的最优路径为 $ MathJax-Element-438 $ 。

    bias

    • 实际上,状态 $ MathJax-Element-439 $ 倾向于转换到状态 $ MathJax-Element-443 $ ;同时状态 $ MathJax-Element-443 $ 也倾向于留在状态 $ MathJax-Element-443 $ 。但是由于状态 $ MathJax-Element-443 $ 可以转化出去的状态较多,从而使得转移概率均比较小。

      而维特比算法得到的最优路径全部停留在状态 1 ,这样与实际不符。

    • MEMM倾向于选择拥有更少转移的状态,这就是标记偏置问题。

  6. 标记偏置问题的原因是:计算 $ MathJax-Element-444 $ 仅考虑局部归一化,它仅仅考虑指定位置的所有特征函数。

    • 如上图中, $ MathJax-Element-445 $ 只考虑在 $ MathJax-Element-447 $ 这个结点的归一化。

      • 对于 $ MathJax-Element-447 $ ,其转出状态较多,因此每个转出概率都较小。
      • 对于 $ MathJax-Element-448 $ ,其转出状态较少,因此每个转出概率都较大。
    • CRF解决了标记偏置问题,因为CRF是全局归一化的:

      $ P(\mathbf Y\mid \mathbf X)=\frac 1Z \exp\left(\sum_{j=1}^{K_1}\sum_{i=1}^{n-1}\lambda_jt_j(Y_i,Y_{i+1},\mathbf X,i)+\sum_{k=1}^{K_2}\sum_{i=1}^{n}\mu_ks_k(Y_i,\mathbf X,i)\right) $

      它考虑了所有位置、所有特征函数。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文