文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
5.2 学习如何区分出优秀的答案
在分类的时候,我们希望得到给定样本的类别,有时又叫做标签。要达到这个目的,我们需要先回答以下两个问题。
我们该如何表示数据样本?
我们的分类器应该采用哪种模型或结构?
5.2.1 调整样本
在这里,数据样本很简单,就是答案中的文本,而标签是一个二值数字,代表提问者是否接受这个答案。然而,对于大多数机器学习算法来说,原始文本并不是一个很方便的表示方式。这些算法需要用数字表示的样本。我们的任务就是从原始文本中提取有用的特征,使机器学习算法可以用它来学习正确的标签。
5.2.2 调整分类器
我们一旦收集到足够多的数据对(文本及标签),就可以开始训练分类器了。对于分类器所使用的结构,我们有很多种选择。但每种选择都各有利弊。这里仅举几个比较重要的选择,如逻辑回归、决策树、SVM和朴素贝叶斯。在本章中,我们会拿基于模型的逻辑回归方法和前一章中的基于示例的方法做对比。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论