Treebank 的 Python 数据结构?

发布于 2024-12-15 17:48:12 字数 242 浏览 0 评论 0原文

我正在寻找一个处理 Penn Treebank 结构的 Python 数据结构。这是 Treebank 的示例:

( (S
    (NP-SBJ (PRP He) )
    (VP (VBD shouted) )
    (. .) ))

本质上,我想要一个数据结构,我可以询问诸如“主题 NP 的孩子是什么?”之类的问题。或“哪些类型的短语主导代词?”,最好是用 Python 语言。有人知道吗?

I'm looking for a Python data structure that handles the Penn Treebank structure. This is a sample of what the Treebank looks like:

( (S
    (NP-SBJ (PRP He) )
    (VP (VBD shouted) )
    (. .) ))

Essentially, I would like a data structure that I can ask things like "What are the children of the subject NP?" or "What types of phrases dominate the pronoun?", preferably in Python. Does anyone have a clue?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

維他命╮ 2024-12-22 17:48:12

NLTK 模块 可能是在 Python 中实现 Penn Treebank 和其他 NLP 相关内容的良好开端。

NLTK modules might be a good start to implement Penn Treebank and other NLP related stuff in Python.

゛清羽墨安 2024-12-22 17:48:12

我仍然建议使用 NLTK 来读取树库(参见例如 这篇博文),但我可以想象它不支持这种一般查询。

“主体 NP 的孩子是什么?”

这将是一个dict,例如children,将非终结符映射到非终结符或子节点的

“什么类型的短语在代词中占主导地位?”

这将是另一个dict,例如parents,将非终结符映射到非终结符的集合

您可能想要构建树节点的关系数据库。确切的模式取决于您想要询问哪种类型的查询,但请务必查看 Python sqlite3 模块。

或者,您可以以 XML 和 使用XPath来查询。恕我直言,LXML 是 Python 最好的 XML/XPath 库。

I still suggest using NLTK to read the treebank (see e.g. this blog post), but I can imagine it doesn't support this kind of general queries.

"What are the children of the subject NP?"

This would be a dict, say children, mapping nonterminals to sets of either nonterminals or child nodes.

"What types of phrases dominate the pronoun?"

This would be another dict, say parents, mapping nonterminals to sets of nonterminals.

You might want to build a relational database of tree nodes. The exact schema would depend on what kind of queries you want to ask, but be sure to check out the Python sqlite3 module.

Alternatively, you can recode the treebank in XML and use XPath to query it. LXML is the best XML/XPath library for Python, IMHO.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文