在 Java 中从 Treebank 标签转换为 Wordnet 兼容标签?

发布于 2024-11-02 09:53:48 字数 485 浏览 1 评论 0原文

我有来自 OpenNLP 的 POS 标记输入...我需要将它们与 WordNet 一起使用...但是 wordnet 仅使用 4 个标记 - 名词、动词、形容词、副词...其中 OpenNLP 基于 Penn 树库标记集 。我需要将它们转换为与 wordnet 兼容的标签...我确实找到了 这个 在网站上 - 但都是 python..我需要 java

同意我可以自己编写一个简单的函数来重命名这些标签..但是如何处理其他标签,如 DT、PP、PDT、POS、MD 等.. 。

I have POS tagged input from OpenNLP...i need to use these with WordNet...but wordnet uses only 4 tags - noun, verb, adjective, adverb...where OpenNLP generates tags based on Penn treebank tagset . I need to convert them to wordnet-compatible tags... i did find this on the site - but its all python..i need java

agreed that i can write a simple function myself to rename these tags..but what to do with other tags like DT, PP, PDT, POS, MD, etc...

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

2024-11-09 09:53:48

有关您想要对 WordNet 关联执行的操作的更多信息可能会有所帮助,但我的第一个猜测是您想要丢弃未完全映射到 WordNet 类别的词性。

例如,考虑 DT(限定词)。您是否希望从 WordNet 中获得“the”和“an”之间的关系?同样,WordNet 中的 PP(介词)可能存在有用的关系,但我怀疑您更有可能在不同的名词或动词之间找到有用的关系,而不是在封闭类单词之间找到有用的关系。

我的建议是首先将每个 TreeBank 词性标记映射到 WordNet 类之一,或者将那些没有明显映射的词性映射为“null”(您可能会找到这样一个映射某处,但只有 36 个标签,您自己也可以轻松完成)。

对于封闭类单词,您可能决定使用关系元数据的另一个来源,但这可能取决于应用程序的最终目标。

Some more information about what you're wanting to do with WordNet associations might be helpful, but my first guess is that you want to discard parts-of-speech which don't map cleanly to the WordNet categories.

For example, consider DT (determiner). Are you hoping to get a relationship between, say, 'the' and 'an' from WordNet? Similarly, there might be useful relationships in WordNet for PP (prepositions), but I suspect you're much more likely to find helpful relationships between different nouns or verbs than between closed-class words.

My recommendation is to start by mapping each of the TreeBank part-of-speech tags to one of the WordNet classes, or to 'null' for those parts-of-speech that don't have obvious mappings (you could probably find such a mapping somewhere, but with only 36 tags, it might be just as easy to do yourself).

For closed-class words, you might decide to use another source of relationship metadata, but that will probably depend on the end-goal of your application.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文