关于并行分词的使用问题

发布于 2021-11-20 21:59:01 字数 349 浏览 849 评论 2

@sunjunyi 你好，想跟你请教个并行分词的使用问题：

主页上说并行分词“将目标文本按行分隔后，把各行文本分配到多个python进程并行分词，然后归并结果”。如果我有N个字符串，每个字符串是一句话，存在N个变量中，那么为了对这N个字符串（即N句话）进行并行分词，我是否应将这N个字符串连接成一个字符串，每句话中间用换行符n隔开，然后将这个连接好的字符串传给cut函数，cut函数就会在内部自动依据n分解成N个字符串，然后多线程进行分词，最后返回N句话的所有分词，是这样吗？谢谢！

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

后知后觉 2021-11-24 07:47:46

我的代码如下：

jieba.enable_parallel(2)

seg_list=jieba.cut("北京清华大学")

到这儿都没问题，但是就是无法取出seg_list中的分词结果，无论用list(seg_list), seg_list.__next__()还是"/ ".join(seg_list)都会报错：

Traceback (most recent call last):

File "<pyshell#51>", line 1, in <module>

seg_list.__next__()

File "/usr/local/lib/python3.3/dist-packages/jieba/__init__.py", line 312, in pcut

parts = re.compile(b'([rn]+)').split(sentence)

TypeError: can't use a bytes pattern on a string-like object

如果用

for i in seg_list:

print(i)

则没有任何结果出来。请问这是怎么回事？我用的是ubuntu+python3.3。

谢谢！

回复收藏 0