有谁知道原来的 Penn Treebank 有多少个句子?

发布于 2024-09-11 11:29:29 字数 26 浏览 2 评论 0原文

我似乎在任何地方的文档中都找不到这一点

I can't seem to find that in the documentation anywhere

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

醉南桥 2024-09-18 11:29:29

Penn Treebank 有 450 万个用于词性标注的英语单词,其中大约一半用于骨架解析。

查看本文档的第 327 页 http://acl.ldc.upenn .edu/J/J93/J93-2004.pdf。它有点过时了(2004 年),但我想不出从那时起英语使用者引入过任何新单词。

The Penn Treebank has 4.5 million English words that are used for P.O.S tagging, and about half of that is used for skeletal parsing.

Check out page 327 of this document http://acl.ldc.upenn.edu/J/J93/J93-2004.pdf. It is a little outdated (2004) but I can't think of any new words that English speakers have introduced since then.

自演自醉 2024-09-18 11:29:29

总共大约有 40,000 个句子,摘自《华尔街日报》。

In total its roughly around 40,000 sentences, taken from the Wall Street Journal.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文