关于并行分词的使用问题

发布于 2021-11-20 21:59:01 字数 349 浏览 846 评论 2

@sunjunyi 你好,想跟你请教个并行分词的使用问题:

主页上说并行分词“将目标文本按行分隔后,把各行文本分配到多个python进程并行分词,然后归并结果”。如果我有N个字符串,每个字符串是一句话,存在N个变量中,那么为了对这N个字符串(即N句话)进行并行分词,我是否应将这N个字符串连接成一个字符串,每句话中间用换行符n隔开,然后将这个连接好的字符串传给cut函数,cut函数就会在内部自动依据n分解成N个字符串,然后多线程进行分词,最后返回N句话的所有分词,是这样吗?谢谢!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

后知后觉 2021-11-24 07:47:46

我的代码如下:

jieba.enable_parallel(2)

seg_list=jieba.cut("北京清华大学")

到这儿都没问题,但是就是无法取出seg_list中的分词结果,无论用list(seg_list), seg_list.__next__()还是"/ ".join(seg_list)都会报错:

Traceback (most recent call last):

  File "<pyshell#51>", line 1, in <module>

    seg_list.__next__()

  File "/usr/local/lib/python3.3/dist-packages/jieba/__init__.py", line 312, in pcut

    parts = re.compile(b'([rn]+)').split(sentence)

TypeError: can't use a bytes pattern on a string-like object

如果用

for i in seg_list:

 print(i)

则没有任何结果出来。请问这是怎么回事?我用的是ubuntu+python3.3。

谢谢!

疾风者 2021-11-23 02:20:53

@Yemy ,可以这样做。

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文