tokenize

tokenize

文章 0 浏览 6

启动时用标签在子字符串中的最佳标记单词在&提供结尾指数[Python]

我正在尝试以串联格式格式化数据以进行NER任务(此信息在很大程度上无关紧要)。我要最佳实现的是 - 输入: text:快速棕色狐狸跳过懒惰的狗。 indice…

破晓 2025-01-24 13:30:01 0 0

Spacy vs NLTK Word Tokenize基准测试

[我的代码] [1] 导入nltk导入spacy nlp = spacy.load(“ en_core_web_sm”,disable = ['parser','ner','tok2vec','tagger','attribute_ruler' .…

雾里花 2025-01-23 16:19:14 0 0

从一系列句子的单个句子diskenize

我有一个任务问题,我必须在其中找到一种方法来从一串句子中对单个句子进行描述。句子是由完整停止终止的任何单词序列(包括完整的停止本身)。 如果…

甜是你 2025-01-23 08:22:56 0 0

在C++中解析(拆分)字符串使用字符串定界符(标准C++)

我使用以下内容在C ++中解析一个字符串: using namespace std; string parsed,input="text to be parsed"; stringstream input_stringstream(input);…

娇纵 2025-01-22 00:18:18 1 0

拆分字符串并指定类似的字符。 :

我正在使用JavaScript编写汇编解析器(不要问为什么) 需要拆分单词,但是字符之类的字符。 ,:需要是单独的数组元素 作为解决方案,我可以使用 .spl…

很酷又爱笑 2025-01-21 17:32:24 0 0

有没有更快的方法来获得 BERT 中给定子词嵌入的词嵌入

使用 bert.tokenizer 我可以获取句子中单词的子词 id 和单词跨度,例如,给定句子“这是一个例子”,我得到 [“th”,“##is”的编码文本嵌入, "an",…

我要还你自由 2025-01-20 06:13:56 2 0

keras pad_sequence 和 Tokenizer

i learn on kaggle dataset Here to practice on nlp i have an error when i tokenize the tweets and go to padding them i got an error i search…

动次打次papapa 2025-01-19 22:19:52 1 0

如何从我的日志文件中提取并使用@timefield?

我希望设置@timestamp字段以读取我的日志行中的时间戳,而不是使用读取日志时的时间。 示例日志线: 2021.04.21 00:00:00.843 INF getBaseData: UserN…

年少掌心 2025-01-19 18:04:25 1 0

NLTK word_tokenize 返回空

我正在尝试将文本文档中的单词和句子归为单词和句子,但两者都空了。您能检查并分享我为什么看到这个吗? Please find the code below (not attaching…

時窥 2025-01-19 05:40:20 1 0

没有 pos 的句子 - Python

我已经对文本进行了标记,并希望在没有 pos 的情况下打印句子的错误,但它会为每个句子打印错误。我应该如何改变它? sents = nltk.sent_tokenize(tex…

允世 2025-01-18 15:35:40 1 0

特殊代币有什么特别之处?

“令牌”和“特殊令牌”到底有什么区别? 我了解以下内容: 什么是典型的令牌, 什么是典型的特殊令牌:蒙版,unk,sep等。 当您添加令牌(当您想扩展…

轻拂→两袖风尘 2025-01-18 05:19:22 1 0

为什么我无法从NLTK diakenize或导入令牌?

我收到以下侵入式: 1 import nltk ---->2 from nltk.tokenize import tokenize 3 import re ImportError: cannot import name 'tokenize' from 'nltk…

长梦不多时 2025-01-17 13:40:56 1 0

TorchText Vocab TypeError:Vocab.__init__() 得到了意外的关键字参数“min_freq”;

我正在研究 CNN 情感分析机器学习模型,该模型使用 Torchtext 库提供的 IMDb 数据集。 在我的一行代码中 vocab = Vocab(counter, min_freq = 1,specia…

倾城泪 2025-01-17 13:33:44 1 0

如何使用函数递归遍历 txt 或 html 文件并返回每个单独的字符

我正在尝试为我正在构建的 HTML 解析器的标记化阶段创建一个输入流。这是一些背景: 输入流由解码输入字节流时推入其中的字符组成。 在标记化阶段之前…

江南烟雨〆相思醉 2025-01-15 22:33:11 1 0

获取不带标点符号的句子中的字数NLTK python

我正在尝试使用 python 中的 nltk 获取句子中的字数 这是我编写的代码 import nltk data = "Sample sentence, for checking. Here is an exclamation …

空城仅有旧梦在 2025-01-12 18:57:38 2 0
更多

推荐作者

饮湿

文章 0 评论 0

明月

文章 0 评论 0

02

文章 0 评论 0

hs1283

文章 0 评论 0

风向决定发型

文章 0 评论 0

落花浅忆

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文