RegEx Tokenizer 将文本拆分为单词、数字和标点符号
我想做的就是把一个文本拆分成他的终极元素。 例如: from nltk.tokenize import * txt = "A sample sentences with digits like 2.119,99 or 2,99 ar…
将句子放入列表中 - python
我知道 nltk 可以分割句子并使用以下代码将其打印出来。 但是我如何将句子放入列表中而不是输出到屏幕上? import nltk.data from nltk.tokenize impo…
使用 WordNet 和 NLTK 替换语料库中的同义词 - python
尝试编写简单的 python 脚本,该脚本将使用 NLTK 查找并替换 txt 文件中的同义词。 以下代码给我错误: Traceback (most recent call last): File "C:…
有谁知道如何在 nltk 上配置 hunpos 包装类?
我已经尝试了以下代码并安装了 来自 http://code.google.com/p/hunpos/downloads/list 英语-wsj-1.0 hunpos-1.0-linux.tgz 我已将文件提取到“~/”目…
如何在 nltk 中使用 hunpos 标记文本文件?
有人可以帮我解决在 nltk 中标记语料库的 hunpos 语法吗? 我要为 hunpos.HunPosTagger 模块? 如何对语料库进行 HunPosTag?请参阅下面的代码。 impo…
使用 Python 从个人地名词典中识别命名实体
我尝试使用 NLTK 在 python 中进行命名实体识别。 我想提取个人技能列表。 我有技能列表,想在申请中搜索它们并标记技能。 我注意到 NLTK 有 NER 标签…
如何通过文本文件编写 hunpos 脚本?
我的目的是使用 POS 解析器 HunPos http://code.google 解析多个文本文件。 com/p/hunpos/wiki/UserManualI 有没有办法通过一堆文本文件来bash脚本hun…
Python NLTK 标记断言错误
当使用 NLTK 通过 PlainTextCorpusReader 处理大约 5000 个帖子时,我遇到了奇怪的断言错误。对于我们的一些数据集,我们没有任何重大问题。然而,在…
如何统计文件中的句子数、单词数和字符数?
我编写了以下代码来标记来自文件 samp.txt 的输入段落。谁能帮我查找并打印文件中的句子数、单词数和字符数?为此,我在 python 中使用了 NLTK。 >>>i…
使用稀疏表示的 nltk.cluster
我对 Python 还很陌生。 我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于单词文档矩阵。虽然当矩阵是类似 numpy 数组的对象列表时它可以工作,…
给定一个名词,确定“性别”的最佳方法是什么?
我的任务是确定广告适合男性还是女性。 确定这一点的最佳方法是什么? 这些词看起来像这样: Cheetos Coca Cola Nike Ferrari 24 Arrested Developmen…