关于并行分词的使用问题
@sunjunyi 你好,想跟你请教个并行分词的使用问题:
主页上说并行分词“将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果”。如果我有N个字符串,每个字符串是一句话,存在N个变量中,那么为了对这N个字符串(即N句话)进行并行分词,我是否应将这N个字符串连接成一个字符串,每句话中间用换行符n隔开,然后将这个连接好的字符串传给cut函数,cut函数就会在内部自动依据n分解成N个字符串,然后多线程进行分词,最后返回N句话的所有分词,是这样吗?谢谢!
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
我的代码如下:
jieba.enable_parallel(2)
seg_list=jieba.cut("北京清华大学")
到这儿都没问题,但是就是无法取出seg_list中的分词结果,无论用list(seg_list), seg_list.__next__()还是"/ ".join(seg_list)都会报错:
Traceback (most recent call last):
File "<pyshell#51>", line 1, in <module>
seg_list.__next__()
File "/usr/local/lib/python3.3/dist-packages/jieba/__init__.py", line 312, in pcut
parts = re.compile(b'([rn]+)').split(sentence)
TypeError: can't use a bytes pattern on a string-like object
如果用
for i in seg_list:
print(i)
则没有任何结果出来。请问这是怎么回事?我用的是ubuntu+python3.3。
谢谢!
@Yemy ,可以这样做。