当前位置：文江博客文章教程详情

中文分词结巴分词 TextGrocery LibLinear

TextGrocery 短文本分类工具中文文档 v0.1.3

发布于 2021-01-09 14:41:50 字数 4321 浏览 1419 评论 0

TextGrocery是一个基于 LibLinear 和结巴分词的短文本分类工具，特点是高效易用，同时支持中文和英文语料。

GitHub 项目链接

性能

训练集：来自32个类别的4.8万条中文新闻标题
测试集：来自32个类别的1.6万条中文新闻标题
与scikit-learn的svm和朴素贝叶斯算法做横向对比

分类器	准确率（%）	计算时间（秒）
scikit-learn(朴素贝叶斯)	76.8%	134
scikit-learn(svm)	76.9%	121
TextGrocery	79.6%	49

安装

通过 GitHub（最新版本）

git clone https://github.com/2shou/TextGrocery.git
cd TextGrocery
make

通过 pip（更稳定）

pip install tgrocery

快速开始

>>> from tgrocery import Grocery
# 新开张一个杂货铺（别忘了取名）
>>> grocery = Grocery('sample')
# 训练文本可以用列表传入
>>> train_src = [
    ('education', '名师指导托福语法技巧：名词的复数形式'),
    ('education', '中国高考成绩海外认可 是“狼来了”吗？'),
    ('sports', '图文：法网孟菲尔斯苦战进16强 孟菲尔斯怒吼'),
    ('sports', '四川丹棱举行全国长距登山挑战赛 近万人参与')
]
>>> grocery.train(train_src)
# 也可以用文件传入（默认以tab为分隔符，也支持自定义）
>>> grocery.train('train_ch.txt')
# 保存模型
>>> grocery.save()
# 加载模型（名字和保存的一样）
>>> new_grocery = Grocery('sample')
>>> new_grocery.load()
# 预测
>>> new_grocery.predict('考生必读：新托福写作考试评分标准')
education
# 测试
>>> test_src = [
    ('education', '福建春季公务员考试报名18日截止 2月6日考试'),
    ('sports', '意甲首轮补赛交战记录:米兰客场8战不败国米10年连胜'),
]
>>> new_grocery.test(test_src)
# 输出测试的准确率
0.5
# 同样可支持文件传入
>>> new_grocery.test('test_ch.txt')
# 自定义分词模块（必须是一个函数）
>>> custom_grocery = Grocery('custom', custom_tokenize=list)

API 文档

Grocery

class tgrocery.Grocery(name, custom_tokenize=None)

确定你的分类项目名
custom_tokenize 会覆盖默认的分词单元（结巴分词），要求custom_tokenize的类型必须是函数

def Grocery.train(train_src, delimiter='\t')

获取训练样本，生成分类模型

train_src 可以是嵌套列表或文件路径
- 嵌套列表：实体是两个字符串构成的 tuple，第一个字符串是类别标签，第二个字符串是语料文本
- 文件路径：一行为一个训练样本，类别标签在前、语料文本在后，默认分隔符是 \t
delimiter 是解析训练样本时所用的分隔符，仅在 train_src 为文件路径时生效

def Grocery.get_load_status()

返回目前模型是否在已训练或已加载的状态

def Grocery.predict(single_text)

对单一文本预测其类别（预测前会检测模型是否已训练或已加载）
返回一个 GroceryPredictResult 对象

def Grocery.save()

保存模型到本地

默认文件夹名是Grocery的name属性
如果本地存在同名文件夹，将被覆盖

def Grocery.load()

从本地加载模型

默认文件夹名是Grocery的name属性
分词单元的信息不会被自动加载，如果自定义了分词单元，需要在创建Grocery的过程中再次指定

def Grocery.test(test_src, delimiter='\t')

测试模型在测试样本中取得的准确率

test_src可以是嵌套列表或文件路径
- 嵌套列表：实体是两个字符串构成的tuple，第一个字符串是类别标签，第二个字符串是语料文本
- 文件路径：一行为一个测试样本，类别标签在前、语料文本在后，默认分隔符是\\t
delimiter是解析测试样本时所用的分隔符，仅在test_src为文件路径时生效
返回一个 GroceryTestResult 对象

GroceryPredictResult

对新语料预测后的结果

GroceryPredictResult.predicted_y

预测的类别标签

GroceryPredictResult.dec_values

对所有类别的决策变量（一个浮点数，可正可负，越大表示归属于该类别的可能性越大）
dict，key 是类别标签，value 是决策变量

GroceryTestResult

对测试样本测试后的结果

GroceryTestResult.accuracy_overall

不分类别的总体准确率，浮点数，0到1之间

GroceryTestResult.accuracy_labels

区分类别的准确率
dict，key 是类别标签，value 是准确率

GroceryTestResult.recall_labels

区分类别的召回率
dict，key 是类别标签，value 是召回率

def GroceryTestResult.show_result()

打印各类别的准确率和召回率表格，方便比较

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

你可能也喜欢

PHP 判断搜索引擎蜘蛛类型

MarkdownEditor 基于浏览器的 Markdown 在线文本编辑器

ESDoc 根据 JS 文件注释自动生成接口文档

前端识别特定浏览器最佳实践

Coreseek 在 Windows 安装问题和使用步骤

typeahead.js 由 twitter 开发的快速功能强大的自动完成插件

TypeWatch 检查用户停止输入的 jQuery 插件

教你批量获取考拉海购商品的主图、详情页图片并分类保存

上一篇： CentOS 创建磁盘分区及挂载磁盘

下一篇： Three.js 图层 Layers 对象和 .layers 属性

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

列表为空，暂无数据

关于作者

生命进入颠沛而奔忙的本质状态，并将以不断告别和相遇的陈旧方式继续下去。

文章

评论

84965 人气

关注发私信

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

一笔一画续写前缘

文章 0 评论 0

mb_XvqQsWhl

文章 0 评论 0

我不在是我

文章 0 评论 0

依靠

文章 0 评论 0

L.W.

文章 0 评论 0

暗里之光

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文