使用 NLTK 检测英语动词时态
我正在寻找一种给定英语文本的方法来计算过去时、现在时和将来时的动词短语。现在我正在使用 NLTK,进行 POS(词性)标记,然后计数说“VBD” ' 以获得过去时态。但这还不够准确,所以我想我需要进一步使用分块,然后分析 VP-chunks 的特定时态模式。有什么现有的东西可以做到这一点吗?进一步阅读可能有帮助吗? NLTK 书主要关注 NP 块,我可以找到相当少的关于VP-chunks的信息。
I am looking for a way given an English text count verb phrases in it in past, present and future tenses. For now I am using NLTK, do a POS (Part-Of-Speech) tagging, and then count say 'VBD' to get past tenses. This is not accurate enough though, so I guess I need to go further and use chunking, then analyze VP-chunks for specific tense patterns. Is there anything existing that does that? Any further reading that might be helpful? The NLTK book is focused mostly on NP-chunks, and I can find quite few info on VP-chunks.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
确切的答案取决于您打算使用哪个分块器,但是列表理解将带您走很长的路。这可以使用不存在的词块划分器获得动词短语的数量。
您可以采用更细粒度的方法来检测时态数量。
Thee exact answer depends on which chunker you intend to use, but list comprehensions will take you a long way. This gets you the number of verb phrases using a non-existent chunker.
You can take a more fine-grained approach to detect numbers of tenses.
您可以使用 Berkeley Parser 或 斯坦福解析器。但我不知道是否有可用的 Python 接口。
You can do this with either the Berkeley Parser or Stanford Parser. But I don't know if there's a Python interface available for either.