当前位置：文江博客话题详情

Lib Linear 如何使用它

发布于 2024-11-09 08:56:00 字数 306 浏览 7 评论 0 原文

总的来说，我对机器学习和文本挖掘相当陌生。我注意到一个名为 Lib Linear 的 ruby 库的存在 https://github.com/tomz /liblinear-ruby-swig。

到目前为止，我想做的是训练软件来识别文本是否提到与自行车相关的任何内容。

有人可以强调我应该遵循的步骤（即：预处理文本和如何处理），共享资源，最好分享一个简单的示例来帮助我继续。

任何帮助都会做，谢谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

最单纯的乌龟 2024-11-16 08:56:00

经典方法是：

收集输入文本的代表性样本，每个样本都标记为相关/不相关。
将样本分为训练集和测试集。
提取训练集中所有文档中的所有术语；称之为词汇表，V。
对于训练集中的每个文档，将其转换为布尔向量，其中第 i 个元素为 true/1，当且仅当词汇表中的第 i 个术语出现在该文件。
将矢量化训练集提供给学习算法。

现在，要对文档进行分类，请按照步骤 4 对其进行矢量化，并将其提供给分类器以获得相关/不相关的标签。将其与实际标签进行比较，看看是否正确。通过这个简单的方法，您应该能够获得至少 80% 的准确率。

要改进此方法，请将布尔值替换为术语计数，按文档长度标准化，或者更好的是 tf-idf 分数。

回复收藏 0 原文

~没有更多了~

关于作者

戈亓

暂无简介

文章

26 人气

关注发私信

燃烧我的卡路李先生

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

qq_IklFPL

文章 0 评论 0

关注

迷途知返

文章 0 评论 0

关注

深海不蓝

文章 0 评论 0

友情链接

文江博客

Lib Linear 如何使用它

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签