当前位置：文江博客话题详情

Python localization nlp nltk

我有多种语言的文本文件。如何在NLTK中有选择地删除一种语言？

发布于 2024-09-15 21:03:42 字数 172 浏览 7 评论 0原文

也许这是不可能的，我应该放弃所有的希望。或者也许有一种我没有想到的非常聪明的方法。

这是我得到的两个例子：

尼亚巴尼亚 - 尼亚萨 (yabisa, yaybasu)[ybs][ey-巴-斯]（变得干燥，僵硬的、僵硬的）20:77 yabasan = 干的。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

慢慢从新开始 2024-09-22 21:03:42

您可以使用 nltk.NaiveBayesClassifier 来完成上述工作。

以下链接应该有帮助：
http://nltk.googlecode.com/svn/trunk/doc/ book/ch06.html

它有一个使用 nltk.NaiveBayesClassifier 进行性别识别的示例。您使用相同的语言识别。

您引用的第一个示例将与 nltk.NaiveBayesClassifier 配合使用，因为 unicode 集完全不同。

在第二个示例中，专有名词之类的单词可能在两种语言中拼写相同，这可能会导致语言识别中出现一些错误。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

23 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

苍风燃霜

文章 0 评论 0

我的黑色迷你裙

文章 0 评论 0

悸初

文章 0 评论 0

撧情箌佬

文章 0 评论 0

森罗

文章 0 评论 0

lyn1245

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文