从 Wordnet 命令行工具获取 POS 概率

发布于 2024-11-15 17:31:24 字数 199 浏览 6 评论 0原文

我正在编写一些使用 ruby​​ 通过 wn 命令行工具访问 wordnet 的实验,因为我放弃了让 wordnet gem 工作。

我希望能够查找感官的频率,最终能够计算给定单词是名词/形容词/动词/副词的概率。

我已经尝试过文档,但它并不总是那么明确。

不使用 wn 工具是否可以实现这一点?我是否认为 wordnet 包含此信息?

I'm writing some experiments with ruby accessing wordnet through the wn command line tool because I gave up on getting the wordnet gem to work.

I want to be able to lookup the frequencies of senses, ultimately to be able to calculate the probability that a given word is a noun/adjective/verb/adverb.

I've tried the documentation but it's not always so explicit.

Is this possible without using just the wn tool? and am I write in thinking wordnet includes this info?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

假面具 2024-11-22 17:31:24

据我所知,它本身不包括频率,尽管同义词集在返回结果中按频率从最高到最低的顺序排列。

您可以通过多种方式获取实际频率。也许最可靠的方法是使用 POS 标记语料库(例如 Penn TreeBank),然后自己计算值。不幸的是,如果您不在大学,那么很难获得免费的副本。另一种选择是构建自己的语料库(可能来自博客、古腾堡计划书籍、维基百科等),对其运行词性标注器,然后从中计算频率。显然,这种方法会有所偏差,但它比手动标记语料库要容易得多。

As far as I can tell, it does not include frequencies per se, though synsets are ordered from most to least frequent in the return results.

You can get actual frequencies a number of ways. Perhaps the most reliable is to use a POS tagged corpus like the Penn TreeBank, then just compute the values yourself. Unfortunately, getting a free copy of that is difficult if you're not in a university. Another option is to build your own corpus (maybe from blogs, Project Gutenberg books, Wikipedia, whatever), run a POS tagger over it and then compute the frequencies from that. Obviously, this method is going to be skewed, but it's a lot easier than tagging a corpus manually.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文