Spacy vs NLTK Word Tokenize基准测试

发布于 2025-01-23 16:19:14 字数 715 浏览 2 评论 0原文

[我的代码] [1]

导入nltk导入spacy nlp = spacy.load（“ en_core_web_sm”，disable = ['parser'，'ner'，'tok2vec'，'tagger'，'attribute_ruler' .max_length = 4532554

bigdata = open（“/users/users/harikaranharithas/downloads/data/data/en en.txt”，'r'） bigdata_r = bigdata.read（）

nw =％timeit -o nltk.tokenize.word_tokenize（bigdata_r [0：1000000]）出局-1.35 s±139毫秒 /循环（平均±std。7次运行，每个循环1循环） SW =％TimeIt -o nlp（bigdata_r [0：1000000]）出局-125 ms±3.72 ms每个循环（平均±标准dev。7次运行，每个循环1）

大数据是一个文本文件，由几个Wikipedia文章（2B单词）组成，

我的PC规格是： MacBook Pro（16英寸，2019年） 2,6 GHz 6核Intel Core i7 16 GB 2667 MHz DDR4 Intel UHD图形630 1536 MB（+4GB ra 5500）的

速度比NLTK快，我做错了什么。我在论文中读到，在单词令牌化中，Spacy在某种程度上禁食了8次，如何正确地基准spacy和nltk？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沙沙粒小 2025-01-30 16:19:14

将文档传递到nlp可能不仅仅是执行令牌。

您可以尝试明确使用令牌器吗？

from spacy.lang.en import English
nlp = English()

# Create a Tokenizer with the default settings for English
# including punctuation rules and exceptions
tokenizer = nlp.tokenizer

tokenizer(BIGDATA_R[0:100000])

Passing the documents to nlp might be doing more than just tokenizing.

Can you try to explicitly use only the tokenizer?

from spacy.lang.en import English
nlp = English()

# Create a Tokenizer with the default settings for English
# including punctuation rules and exceptions
tokenizer = nlp.tokenizer

tokenizer(BIGDATA_R[0:100000])

回复收藏 0 原文

~没有更多了~