条件随机场——它们是如何工作的？

发布于 2024-09-18 06:12:44 字数 657 浏览 7 评论 0原文

我假设特征是通过一些启发式生成的。以词性标注器为例；也许查看训练数据表明 'bird' 在所有情况下都被标记为 NOUN，因此特征 f1(z_(n-1),z_n,X, n) 生成为

(if x_n = 'bird' and z_n = NOUN then 1 else 0)

其中 X 是输入向量，Z 是输出向量。在权重训练过程中，我们发现这个 f1 永远不会被违反，因此相应的权重 \1 （对于 lambda 来说是 \）最终会是正数，并且训练后比较大。猜测功能和训练似乎都具有挑战性，但在其他方面却很简单。

我不知道如何将模型应用于未标记的数据。使用一些任意标签初始化输出向量，然后更改标签，使所有 \ * f? 的总和增加。

对此的任何帮助将不胜感激。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

貪欢 2024-09-25 06:12:44

我不完全确定我是否正确理解你的意思，但是是的，在输出端，每个向量都用开始和结束符号进行增强。

您关于由某些启发式生成的特征函数也是正确的。通常启发式是采用所有可能的组合。在您的示例中，每对（单词，标签）都会有一个特征函数，从而产生大量特征。制定此类特征的常见方法是使用特征模板。

在评估模型时，您不关心标准化，因此您正在寻找为您提供最大分子项的序列。通常使用维特比算法来执行此操作，除非非常大的标签集 - 或者在您的示例中存在大量可能的标签 - 在这种情况下使用近似值。

CRF 上的 Viterbi 工作方式与 HMM 非常相似。您从序列的开头开始，计算以当前单词结尾的最大概率，即每个单词相对于所有前一个单词的最大值，或者，因为只有一个前一个单词，所以计算 START 符号。在下一步中，您将迭代所有标签，这些标签可能用于预测的第二个元素，即 z_2。非归一化概率的最大值可以根据前驱节点的值（即您在第一步中计算的值和您的模型）来计算。特别是，您可以将前任节点的潜力、到相关节点的转换以及节点本身结合起来，并找到所有前任节点的最大值。是的，由于特征函数不限制对源端的依赖，您可以从中获取任何信息。

当您到达终点时，您可以返回以确定如何达到最大值。

如需进一步阅读，我推荐 Rahul Gupta 的报告。

回复收藏 0 原文