在 NLTK pos_tag 中，为什么要使用“hello”？被归类为名词？

发布于 2024-11-06 00:51:04 字数 266 浏览 5 评论 0原文

我试过了

text = nltk.word_tokenize("hello, my name is John")
words = nltk.pos_tag(text)

for w in words:
    print "%s = %s" % (w[0], w[1])

，我得到了：

hello = NN
, = ,
my = PRP$
name = NN
is = VBZ
John = NNP

原文

I've tried

text = nltk.word_tokenize("hello, my name is John")
words = nltk.pos_tag(text)

for w in words:
    print "%s = %s" % (w[0], w[1])

And I got:

hello = NN
, = ,
my = PRP$
name = NN
is = VBZ
John = NNP

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

一向肩并 2024-11-13 00:51:04

根据 Penn Treebank 标签集，hello 绝对是一个感叹词，并且始终被标记为 UH。您遇到的问题是，NLTK 附带的标记器很可能是在 Penn Treebank 的《华尔街日报》部分免费提供的部分上进行训练的，不幸的是，其中包含单词你好并且只有三个单词标记为UH（感叹词）。如果您想要标记口语文本，则需要在整个 Penn Treebank 上训练您的标记器，其中包括大约 300 万个英语口语单词。

顺便说一句，NLTK 标记器并不总是将 hello 称为名词 - 尝试标记“don't hello me!”或“他打招呼”。

回复收藏 0 原文