nltk

nltk

文章 17 浏览 55

Python:用短语进行标记

我有一些想要标记的文本块,但我不想对空格和标点符号进行标记,这似乎是 NLTK。我希望将某些特定短语标记为单个标记,而不是常规标记化。 例如,给定…

苏佲洛 2024-10-30 13:33:22 6 0

如何在Python-NLTK中使用Gale-Church算法?

gale-church 算法可在 python-NLTK 中使用,但任何人都可以向我展示如何在 python 脚本中调用该函数的示例吗?我不知道该怎么做。 http ://code.googl…

老街孤人 2024-10-30 03:25:09 4 0

使用 WordNet 查找同义词、定义和例句

我需要获取一个包含一个单词的输入文本文件。然后我需要使用 wordnet 找到该词的引理名称、定义和同义词集示例。我已经阅读了这本书:“Python Text H…

回忆那么伤 2024-10-30 02:05:57 8 0

计算文件中单词的音节数的代码

到目前为止,我有以下代码来计算 cmudict(CMU 发音词典)中单词的音节数。它计算字典中所有单词的音节数。现在我需要用输入文件替换 cmudict 并查找…

情徒 2024-10-29 13:39:46 5 0

将单词添加到 nltk 非索引字表

我有一些代码可以从我的数据集中删除停用词,因为停用词列表似乎没有删除我也想要的大部分单词,我希望将单词添加到此停用词列表中,以便它将删除他们…

心欲静而疯不止 2024-10-29 04:38:54 8 0

如何在Python中使用nltk和WordNet获取单词的过去时?

运行以下命令需要哪些软件包? 代码 import nltk from nltk.corpus import wordnet v = 'go' present = present_tense(v) I got an error saying- 错…

深居我梦 2024-10-28 22:10:44 6 0

nltk/python 停用词问题

我有一些处理数据集供以后使用的代码,我用于停止词的代码似乎没问题,但是我认为问题出在我的代码的其余部分,因为它似乎只删除了一些停止词。 impor…

最笨的告白 2024-10-28 08:27:37 5 0

如何使用 nltk 或 python 删除停用词

我有一个数据集,我想从中删除停用词。 我使用 NLTK 获取停用词列表: from nltk.corpus import stopwords stopwords.words('english') 究竟如何将数…

痞味浪人 2024-10-28 05:20:04 5 0

从词频创建 ARFF

我有一些代码为我提供了单词列表以及它们在文本中出现的频率,我希望代码能够将前 10 个单词自动转换为带有 @RELATION wordfrequencies @ATTRIBUTE wo…

飘落散花 2024-10-27 20:48:36 4 0

使用计算机语言处理工具,考虑上下文,翻译单个单词

我想为外语学习者自动注释文本并翻译困难的单词。 例如,如果原文是: 埃尔加托埃斯塔恩拉卡萨德米斯韦西诺斯 萨德米斯韦西诺斯 成为 El gato esta en…

月竹挽风 2024-10-26 19:03:05 4 0

使用 NLTK 对 POS 标记词进行词形还原?

我用 nltk.pos_tag() 标记了一些单词,因此它们被赋予了树库标签。我想使用已知的 POS 标签对这些单词进行词形还原,但我不知道如何做。我正在查看 Wo…

山有枢 2024-10-24 08:50:50 5 0

如何在我的网络服务器上安装 NLTK

好的,我编辑了我的问题,因为我现在有一个支持 ssh 的主机。 如何使用 ssh 安装适用于 python 的 nltk 模块? 我尝试联系支持人员,但他们似乎无法帮…

能怎样 2024-10-22 05:28:57 5 0

韩国、泰国和印度尼西亚 POS 标记器

有人可以推荐一个适用于韩语、印度尼西亚语、泰语和越南语的开源词性标注器吗? 我可以用它来标记我当前拥有的语料库数据。 (例如 stanford-postagge…

残月升风 2024-10-21 06:31:21 10 0

在 NLTK Python 的朴素贝叶斯分类器中使用文档长度

我正在 Python 中使用 NLTK 构建垃圾邮件过滤器。我现在检查单词的出现情况并使用 NaiveBayesClassifier,结果准确度为 0.98,垃圾邮件的 F 测量值为 …

长不大的小祸害 2024-10-21 05:02:03 6 0

RegEx Tokenizer 将文本拆分为单词、数字和标点符号

我想做的就是把一个文本拆分成他的终极元素。 例如: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 ar…

何以畏孤独 2024-10-21 03:00:09 5 0
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文