当前位置：文江博客话题详情

调试 Baum Welch 算法的实现（用于 POS 标记）

发布于 2024-12-19 20:28:01 字数 236 浏览 7 评论 0原文

我正在开发一个项目，其中一部分是开发一个用于 POS 标记的无监督 HMM 训练器，我现在想测试它是否存在可能的错误。

我正在使用 Baum-Welch 算法来训练模型。输入是序列单词（从语料库中提取），输出是来自一组状态 (s1, s2, ... sn) 的隐藏状态序列。我现在已经完成了编码，但我不确定它是否没有错误。

谁能给我一些调试想法？比如我应该检查输出什么？如何检查我的算法的准确性？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

电影里的梦 2024-12-26 20:28:01

无监督词性标注是一个非常有趣的新兴研究课题。如果我理解正确的话，您实际上是在问如何评估标记的准确性，而不是如何调试代码。评估是无监督 POS 归纳中的一个已知问题。您的问题的简短答案是：获取此带注释的语料库来自 NLTK，然后绘制您所在州的地图通过将状态映射到最常同时出现的标签来将状态映射到语料库标签，并找到正确状态的百分比。该评估过程称为多对一映射。

您应该熟悉文献，因为它将回答您的问题等等。这里有一些可以开始的地方：

早期论文：
<块引用>
马克·约翰逊。 2007. 为什么 EM 找不到好的 HMM POS 标记器？载于 2007 年自然语言处理和计算自然语言学习经验方法联合会议 (EMNLP-CoNLL) 论文集，第 296–305 页。
调查论文：
<块引用>
克里斯托斯·克里斯托罗普洛斯、莎朗·戈德华特和马克·斯蒂德曼。 2010. 两个十年的无监督 POS 入门：我们走了多远？摘自 EMNLP 2010 年会议记录。
调查

当您说“无监督”时，您应该问自己是否只想使用原始文本，或者还想使用字典等。也有这方面的工作。

此外，还有可用于该任务的代码。

另一个询问 NLP 的地方是：http://metaoptimize.com/qa 。

如果您还有其他问题，请随时询问。