如何使用 inltk 标记印度语言

发布于 2025-01-09 14:54:44 字数 514 浏览 0 评论 0原文

我使用这个 NLP 文档做到了这一点,请查看: https://inltk.readthedocs.io/en/latest/index.html

from inltk.inltk import tokenize 
text="जो मुझको सताती है तुझे वो बातें आती है जब सामने तू होता नहीं बेचैनी बढ़ जाती है मैं रूठ "
tokenize(text ,'hi')

错误是:

RuntimeError: Internal: src/sentencepiece_processor.cc(890)
[model_proto->ParseFromArray(serialized.data(), serialized.size())] 

i did this using this NLP documentation check it out:
https://inltk.readthedocs.io/en/latest/index.html

from inltk.inltk import tokenize 
text="जो मुझको सताती है तुझे वो बातें आती है जब सामने तू होता नहीं बेचैनी बढ़ जाती है मैं रूठ "
tokenize(text ,'hi')

the error is:

RuntimeError: Internal: src/sentencepiece_processor.cc(890)
[model_proto->ParseFromArray(serialized.data(), serialized.size())] 

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

我早已燃尽 2025-01-16 14:54:45

您遇到的问题通常是在使用了错误的 SPM 模型或存在与 SPM 模型相关的任何其他问题时出现的。

确保首先设置语言支持:

from inltk.inltk import setup
setup('hi')

The issue you encountered usually appears when a wrong SPM model is used, or when there is any other issue related to SPM model.

Make sure you set up the language support first:

from inltk.inltk import setup
setup('hi')
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文