Lib Linear 如何使用它

发布于 2024-11-09 08:56:00 字数 306 浏览 7 评论 0 原文

总的来说,我对机器学习和文本挖掘相当陌生。我注意到一个名为 Lib Linear 的 ruby​​ 库的存在 https://github.com/tomz /liblinear-ruby-swig

到目前为止,我想做的是训练软件来识别文本是否提到与自行车相关的任何内容。

有人可以强调我应该遵循的步骤(即:预处理文本和如何处理),共享资源,最好分享一个简单的示例来帮助我继续。

任何帮助都会做,谢谢!

I'm fairly new at machine learning and text mining in general. It has come to my attention the presence of a ruby library called Liblinear https://github.com/tomz/liblinear-ruby-swig.

What I want to do so far is train the software to identify whether a text mentions anything related to bicycles or not.

Can someone please highlight the steps that I should be following (i.e: preprocessing text and how), share resources and ideally share a simple example to get me going.

Any help will do, thanks!

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

最单纯的乌龟 2024-11-16 08:56:00

经典方法是:

  1. 收集输入文本的代表性样本,每个样本都标记为相关/不相关。
  2. 将样本分为训练集和测试集。
  3. 提取训练集中所有文档中的所有术语;称之为词汇表,V
  4. 对于训练集中的每个文档,将其转换为布尔向量,其中第 i 个元素为 true/1,当且仅当词汇表中的第 i 个术语出现在该文件。
  5. 将矢量化训练集提供给学习算法。

现在,要对文档进行分类,请按照步骤 4 对其进行矢量化,并将其提供给分类器以获得相关/不相关的标签。将其与实际标签进行比较,看看是否正确。通过这个简单的方法,您应该能够获得至少 80% 的准确率。

要改进此方法,请将布尔值替换为术语计数,按文档长度标准化,或者更好的是 tf-idf 分数。

The classical approach is:

  1. Collect a representative sample of input texts, each labeled as related/unrelated.
  2. Divide the sample into training and test sets.
  3. Extract all the terms in all the documents of the training set; call this the vocabulary, V.
  4. For each document in the training set, convert it into a vector of booleans where the i'th element is true/1 iff the i'th term in the vocabulary occurs in the document.
  5. Feed the vectorized training set to the learning algorithm.

Now, to classify a document, vectorize it as in step 4. and feed it to the classifier to get a related/unrelated label for it. Compare this with the actual label to see if it went right. You should be able to get at least some 80% accuracy with this simple method.

To improve this method, replace the booleans with term counts, normalized by document length, or, even better, tf-idf scores.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文