Maxent POS 标签表

发布于 2024-12-16 12:31:44 字数 149 浏览 0 评论 0原文

我使用 nltk.pos_tag 进行词性标记,它使用 maxent 词性标记器。我需要一个包含所有可用标签的表格。

我的最终目标是从文本中提取副词和形容词。

任何帮助表示赞赏。

谢谢

I use nltk.pos_tag for part-of-speech tagging which use maxent part of speech tagger. I need a table of all available tags.

My ultimate aim is to extract just the adverbs and adjectives from a text.

Any help is appreciated.

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

无所谓啦 2024-12-23 12:31:45

尝试:

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()

Try:

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()
喜你已久 2024-12-23 12:31:44

pos_tag,根据其文档字符串,使用“NLTK当前推荐的词性标注器”,因此该建议的有效性可能会过期。为了获得可重现的结果,请使用显式 POS 标记器对象。

查看pos_tag的源代码< /a>,我们可以看到它调用

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

我们可以从中获取 POS 标签列表

>>> _.classifier().labels()
['PRP

(我必须承认我通过对象检查和试错发现了这一点。)

形容词和副词至少是类别JJ(形容词)和RB(副词),也许还有VBN(过去分词,例如“累了”)。

, 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', 'RP', '

(我必须承认我通过对象检查和试错发现了这一点。)

形容词和副词至少是类别JJ(形容词)和RB(副词),也许还有VBN(过去分词,例如“累了”)。

, 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-', 'EX', 'IN', 'WP

(我必须承认我通过对象检查和试错发现了这一点。)

形容词和副词至少是类别JJ(形容词)和RB(副词),也许还有VBN(过去分词,例如“累了”)。

, 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

(我必须承认我通过对象检查和试错发现了这一点。)

形容词和副词至少是类别JJ(形容词)和RB(副词),也许还有VBN(过去分词,例如“累了”)。

pos_tag, according to its docstring, uses "NLTK's currently recommended part of speech tagger", so the validity of this advice might expire. For reproducible results, use an explicit POS tagger object.

Looking at the source code for pos_tag, we can see that it calls

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

from which we can get a list of POS tags with

>>> _.classifier().labels()
['PRP

(I must admit I found this out using object inspection and trial-and-error.)

The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").

, 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', 'RP', '

(I must admit I found this out using object inspection and trial-and-error.)

The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").

, 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-', 'EX', 'IN', 'WP

(I must admit I found this out using object inspection and trial-and-error.)

The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").

, 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

(I must admit I found this out using object inspection and trial-and-error.)

The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文