如何将更多标记词添加到斯坦福 POS-Tagger 的训练模型中?

发布于 2024-10-31 06:08:48 字数 45 浏览 3 评论 0原文

我在文档中没有找到任何有关向标记器添加更多标记词的内容,特别是双向词。 谢谢

I haven't found anything in the documentation about adding more tagged words to the tagger, specifically the bi-directional one.
Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

锦爱 2024-11-07 06:08:48

目前,你还不能。模型训练是一项一次性操作。 (由于标记器使用考虑上下文和频率的权重,因此事后向其中添加新单词并不是一件容易的事。)

At present, you can't. Model training is an all-at-one-time operation. (Since the tagger uses weights that take into account contexts and frequencies, it isn't trivial to add new words to it post hoc.)

有一个解决方法。它很丑陋,但应该能解决问题:

  • 建立一个“你的”单词列表
  • ,扫描这些单词的文本,
  • 如果发现任何与 POS 标记自己匹配的单词(NLTK 可以在这里帮助你)
  • 将其提供给斯坦福解析器。

来自:http://www.cs.ucf.edu/courses/cap5636 /fall2011/nltk.pdf
“你也可以给它 POS 标记的文本;解析器将尝试使用
你的标签,如果它们有意义的话。
如果解析器进行标记,您可能想要这样做
您的文本域中存在错误。”

There is a workaround. It is ugly but should do the trick:

  • build a list of "your" words
  • scan text for these words
  • if any matches found to POS tagging yourself (NLTK can help you here)
  • feed it to Stanford parser.

FROM: http://www.cs.ucf.edu/courses/cap5636/fall2011/nltk.pdf
"You can also give it POS tagged text; the parser will try to use
your tags if they make sense.
You might want to do this if the parser makes tagging
mistakes in your text domain."

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文