在Python2下利用thulac进行分词处理为什么一直报错文件不存在?
# -*- coding: utf-8 -*-
"""
Created on Wed Mar 28 17:06:34 2018
@author: Administrator
"""
import sys
import thulac
import sys
import os
import io
thu=thulac.thulac(seg_only=True)
for i in range(0, 19):
path2="E:/社交网络/weiboAPIsprider/数据集/"#原数据集
f = io.open(path2+str(i)+'.txt', "r" , encoding='UTF-8')
text = ""
for line in f:
text = text+line
print(text)
seg_list = thu.cut(text, Text=False)#处理过的数据集
with io.open("E:/社交网络/jiebaTest/原始结果集/"+'thulac'+str(i)+'.txt', 'w', encoding='UTF-8') as file:
file.write('\n'.join(seg_list))#结果写入文件
file.close()
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
把最终处理的文件路径打出来,并确认本地存在