当前位置：文江博客话题详情

从 Wordnet 命令行工具获取 POS 概率

发布于 2024-11-15 17:31:24 字数 199 浏览 8 评论 0原文

我正在编写一些使用 ruby 通过 wn 命令行工具访问 wordnet 的实验，因为我放弃了让 wordnet gem 工作。

我希望能够查找感官的频率，最终能够计算给定单词是名词/形容词/动词/副词的概率。

我已经尝试过文档，但它并不总是那么明确。

不使用 wn 工具是否可以实现这一点？我是否认为 wordnet 包含此信息？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

假面具 2024-11-22 17:31:24

据我所知，它本身不包括频率，尽管同义词集在返回结果中按频率从最高到最低的顺序排列。

您可以通过多种方式获取实际频率。也许最可靠的方法是使用 POS 标记语料库（例如 Penn TreeBank），然后自己计算值。不幸的是，如果您不在大学，那么很难获得免费的副本。另一种选择是构建自己的语料库（可能来自博客、古腾堡计划书籍、维基百科等），对其运行词性标注器，然后从中计算频率。显然，这种方法会有所偏差，但它比手动标记语料库要容易得多。

回复收藏 0 原文

~没有更多了~