stanford tagger - 标记速度

发布于 2024-09-10 06:33:05 字数 143 浏览 7 评论 0原文

关于斯坦福标记器,我提供了自己的标记语料库,用于训练斯坦福标记器的模型。但是,我意识到我的标记器模型的标记速度比默认的 wsjleft3 标记器模型慢得多。什么可能对此做出贡献?如何提高模型的速度? (除了 Penn 树库标签集之外,我还添加了 3 或 4 个自定义标签)

regarding the stanford tagger, I've provided my own labelled corpus for training the model for the stanford tagger. However, I've realised that the tagging speed of my model for the tagger is much less slower than the default wsjleft3 tagger model. What might contribute to this? And how do I improve the speed of my model? (I've added 3 or 4 custom tags in addition to the Penn treebank tagsets)

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

伤痕我心 2024-09-17 06:33:05

虽然添加更多功能(在 arch 中)通常会使速度变慢(因为特征提取是主要的运行时成本之一),但速度的两个主要决定因素是


  • 特点:left3words 使用
    上一个和第二个上一个标签 (2)
    所以相当快,双向
    使用 4 个(每侧两个),所以是
    非常慢。只使用 1 的标记器
    或 0 上下文标签要快得多
    再次。
  • 一般标签集的大小,特别是可应用于未知单词的开放类标签集的大小。 (但是添加 3 个或 4 个标签几乎没有什么区别——当您的标签集包含数百个标签时,就会出现问题。)

While adding more features (in arch) makes it a bit slower in general (as feature extraction is one of the main runtime costs), the two big determinants of speed are:

  • Number of context tags used in
    features: left3words uses the
    previous and second previous tag (2)
    and so is fairly fast, bidirectional
    uses 4 (two on each side) and so is
    very slow. A tagger that uses just 1
    or 0 context tags is much faster
    again.
  • Size of the tag set in general, and in particular the size of the set of open class tags that can be applied to unknown words. (But adding 3 or 4 should make almost no difference -- it's problematic when you have a tag set with hundreds of tags.)
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文