当前位置：文江博客话题详情

Maxent POS 标签表

发布于 2024-12-16 12:31:44 字数 149 浏览 0 评论 0原文

我使用 nltk.pos_tag 进行词性标记，它使用 maxent 词性标记器。我需要一个包含所有可用标签的表格。

我的最终目标是从文本中提取副词和形容词。

任何帮助表示赞赏。

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

无所谓啦 2024-12-23 12:31:45

尝试：

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()

Try:

import nltk
nltk.help.upenn_tagset()
# and
nltk.help.brown_tagset()

回复收藏 0 原文

喜你已久 2024-12-23 12:31:44

pos_tag，根据其文档字符串，使用“NLTK当前推荐的词性标注器”，因此该建议的有效性可能会过期。为了获得可重现的结果，请使用显式 POS 标记器对象。

查看pos_tag的源代码< /a>，我们可以看到它调用

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

我们可以从中获取 POS 标签列表

>>> _.classifier().labels()
['PRP
（我必须承认我通过对象检查和试错发现了这一点。）
形容词和副词至少是类别JJ（形容词）和RB（副词），也许还有VBN（过去分词，例如“累了”）。
, 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
 'DT', '#', 'RP', '
（我必须承认我通过对象检查和试错发现了这一点。）
形容词和副词至少是类别JJ（形容词）和RB（副词），也许还有VBN（过去分词，例如“累了”）。
, 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
 'EX', 'IN', 'WP
（我必须承认我通过对象检查和试错发现了这一点。）
形容词和副词至少是类别JJ（形容词）和RB（副词），也许还有VBN（过去分词，例如“累了”）。
, 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

（我必须承认我通过对象检查和试错发现了这一点。）

形容词和副词至少是类别JJ（形容词）和RB（副词），也许还有VBN（过去分词，例如“累了”）。

pos_tag, according to its docstring, uses "NLTK's currently recommended part of speech tagger", so the validity of this advice might expire. For reproducible results, use an explicit POS tagger object.

Looking at the source code for pos_tag, we can see that it calls

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

from which we can get a list of POS tags with

>>> _.classifier().labels()
['PRP
(I must admit I found this out using object inspection and trial-and-error.)
The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").
, 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ',
 'DT', '#', 'RP', '
(I must admit I found this out using object inspection and trial-and-error.)
The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").
, 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':',
 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-',
 'EX', 'IN', 'WP
(I must admit I found this out using object inspection and trial-and-error.)
The adjectives and adverbs would be at least the categories JJ (adj) and RB (adv), plus perhaps VBN (past participle, e.g. "tired").
, 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']