如何将更多标记词添加到斯坦福 POS-Tagger 的训练模型中?
我在文档中没有找到任何有关向标记器添加更多标记词的内容,特别是双向词。 谢谢
I haven't found anything in the documentation about adding more tagged words to the tagger, specifically the bi-directional one.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
目前,你还不能。模型训练是一项一次性操作。 (由于标记器使用考虑上下文和频率的权重,因此事后向其中添加新单词并不是一件容易的事。)
At present, you can't. Model training is an all-at-one-time operation. (Since the tagger uses weights that take into account contexts and frequencies, it isn't trivial to add new words to it post hoc.)
有一个解决方法。它很丑陋,但应该能解决问题:
来自:http://www.cs.ucf.edu/courses/cap5636 /fall2011/nltk.pdf
“你也可以给它 POS 标记的文本;解析器将尝试使用
你的标签,如果它们有意义的话。
如果解析器进行标记,您可能想要这样做
您的文本域中存在错误。”
There is a workaround. It is ugly but should do the trick:
FROM: http://www.cs.ucf.edu/courses/cap5636/fall2011/nltk.pdf
"You can also give it POS tagged text; the parser will try to use
your tags if they make sense.
You might want to do this if the parser makes tagging
mistakes in your text domain."