A.2 参考书
本书着重于机器学习实践。我们没有介绍算法或理论背后的思考方法。如果你对机器学习这部分内容感兴趣,我们推荐Pattern Recognition and Machine Learning (Christopher M. Bishop,Springer)。这是这个领域内一个经典的介绍性课本,它会带你了解本书所使用的大多数算法的本质。
如果你想超越介绍性质的内容,学习一下数学细节,那么Machine Learning: A Probabilistic Perspective ( K. Murphy,The MIT Press)是一个很好的选择。它内容新颖(出版于2012年),包含了ML研究的前沿内容,约有1000页。你还可以把它当做一本参考书,因为它几乎涵盖了机器学习方方面面的知识。
A.2.1 问答网站
下面是两个有关机器学习的问答网站:
MetaOptimize (http://metaoptimize.com/qa )是一个机器学习问答网站,有很多知识渊博的研究者和实践者在里面互动讨论;
Cross Validated (http://stats.stackexchange.com )是一个通用统计学问答网站,通常也会涉及机器学习方面的问题。
正如本书开头所提到的那样,如果你对本书的某个部分有疑问,可以随时登录TwoToReal (http://www.twotoreal.com )进行提问。我们会尽快帮你解答。
A.2.2 博客
下面是一个明显不够全面,但会让机器学习从业人员感兴趣的博客列表。
机器学习理论,http://hunch.net
这是John Langford 的博客(他是Vowpal Wabbit ——http://hunch.net/~vw/ ——背后的主导者),访客也可以发帖;
平均速率大约是每月一帖。帖子的内容比较理论化。提供了脑筋急转弯式的附加价值。
文本与数据挖掘实用方法,http://textanddatamining.blogspot.de
平均速率是每月一帖,非常实用,总会有一些让人感到惊奇的方法。
Edwin Chen 的博客,http://blog.echen.me
平均速率是每月一帖,提供了一些更实用的话题。
机器学习,http://www.machinedlearnings.com
平均速率每月一帖,提供了一些更实用的话题,通常围绕大数据学习。
FlowingData,http://flowingdata.com
平均速率每天一帖,主要是解决一些统计学问题。
Normal deviate,http://normaldeviate.wordpress.com
平均速率是每月一帖,主要是对实际问题理论方面的讨论。尽管这个博客的内容更多是关于统计学的,但帖子经常会跟机器学习相关。
简单统计,http://simplystatistics.org
每月都会发表一些帖子,专注于统计学和大数据。
统计学建模,因果推理和社会科学,http://andrewgelman.com
每天一贴,当作者用统计学原理指出流行媒体的缺点的时候,很有趣味。
A.2.3 数据资源
如果你想试验一下算法,可以从加州大学欧文分校(UCI)的机器学习知识库(Machine Learning Repository) 获取到很多数据集。你可以在http://archive.ics.uci.edu/ml 找到它。
A.2.4 竞争日益加剧
一个学习机器学习的好方法就是进行比赛。Kaggle (http://www.kaggle.com )是一个进行ML竞赛的集市,在介绍部分我们已经提过它了。在这个网站里,你可以找到一些不同类型的竞赛,通常还会有奖金。
这种有监督学习竞赛几乎都是采用如下方式:
你(任何其他参与者)可以访问带标签的训练数据和测试数据(没有标签);
你的任务是把对测试数据的预测提交上去;
竞赛结束之后,得到最高正确率的人获胜。获得的奖品从荣誉到现金都有。
当然,赢得奖品固然不错,即使没赢得,仅仅参与一下也不错,也可以积累很多有用的经验。所以,敬请期待,特别是在竞赛结束之后,参与者们还会在论坛里分享他们的方法。在大多数时间里,赢得胜利并不是因为开发出了一个新算法;它往往在于巧妙地预处理、归一化,以及组合现有方法。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论