自然语言处理 - Truecaser 分类器

发布于 2024-10-04 01:01:26 字数 90 浏览 7 评论 0原文

请为数据集的真实情况推荐一个好的机器学习分类器。 另外,是否可以在这样的分类器中指定自己的 truecasing 规则/功能?感谢您的所有建议。

谢谢

Please suggest a good machine learning classifier for truecasing of dataset.
Also, Is it possible to specify out own rules/features for truecasing in such a classifier? Thanks for all your suggestions.

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

折戟 2024-10-11 01:01:26

我用 Python 实现了 truecaser 的一个版本。当您提供足够的数据(即大小写正确的句子)时,它可以针对任何语言进行训练。

对于英语,它对维基百科例句的准确率达到 98.38%。提供了预训练的英语模型。

您可以在这里找到它:
https://github.com/nreimers/truecaser

I implemented a version of a truecaser in Python. It can be trained for any language when you provide enough data (i.e. correctly cased sentences).

For English, it achieves an accuracy of 98.38% on sample sentences from Wikipedia. A pre-trained model for English is provided.

You can find it here:
https://github.com/nreimers/truecaser

傲性难收 2024-10-11 01:01:26

请看一下这份白皮书。

http://www.cs.cmu.edu/~llita /papers/lita.truecasing-acl2003.pdf

他们报告的准确度为 98%。

Please take a look at this whitepaper.

http://www.cs.cmu.edu/~llita/papers/lita.truecasing-acl2003.pdf

They report 98% of accuracy.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文