令牌仪的词汇应该是什么?
我正在尝试使用HuggingFace的令牌器。但是,我没有词汇。
from tokenizers import BertWordPieceTokenizer , CharBPETokenizer, ByteLevelBPETokenizer
from tokenizers import Tokenizer
text = 'the quick brown fox jumped over the lazy dog !!!'
tokenizer = CharBPETokenizer()
print(tokenizer)
#Tokenizer(vocabulary_size=0, model=BPE, unk_token=<unk>, suffix=</w>, dropout=None, #lowercase=False, unicode_normalizer=None, bert_normalizer=True, #split_on_whitespace_only=False)
tokenizer = Tokenizer(BPE())
out = tokenizer.encode(text)
out.tokens
Out[33]: []
根据,如果没有vocab,则只能使用tokenizer(bpe(bpe())。
我认为这可能缺乏词汇问题。有人可以指向我在哪里获取默认词汇 对于BertwordPieCeTokenizer,CharbpeTokenizer,BytelevelbpeTokenizer,句子PiepeunigramTokenizer和BaseTokenizer。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论