stanford tagger - 标记速度
关于斯坦福标记器,我提供了自己的标记语料库,用于训练斯坦福标记器的模型。但是,我意识到我的标记器模型的标记速度比默认的 wsjleft3 标记器模型慢得多。什么可能对此做出贡献?如何提高模型的速度? (除了 Penn 树库标签集之外,我还添加了 3 或 4 个自定义标签)
regarding the stanford tagger, I've provided my own labelled corpus for training the model for the stanford tagger. However, I've realised that the tagging speed of my model for the tagger is much less slower than the default wsjleft3 tagger model. What might contribute to this? And how do I improve the speed of my model? (I've added 3 or 4 custom tags in addition to the Penn treebank tagsets)
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
虽然添加更多功能(在 arch 中)通常会使速度变慢(因为特征提取是主要的运行时成本之一),但速度的两个主要决定因素是
特点:left3words 使用
上一个和第二个上一个标签 (2)
所以相当快,双向
使用 4 个(每侧两个),所以是
非常慢。只使用 1 的标记器
或 0 上下文标签要快得多
再次。
While adding more features (in arch) makes it a bit slower in general (as feature extraction is one of the main runtime costs), the two big determinants of speed are:
features: left3words uses the
previous and second previous tag (2)
and so is fairly fast, bidirectional
uses 4 (two on each side) and so is
very slow. A tagger that uses just 1
or 0 context tags is much faster
again.