轮到你了
将本章称为“概率与统计”其实是一种比较鲁莽的做法。即使是单独介绍概率论也需要大量的篇幅,并不是几页就能写清楚的,更何况还有统计方面的内容。无论是概率论还是统计,如果你是第一次接触相关内容,而又想要成为一名数据科学家,那我不得不说,你还需要完成大量的阅读。《统计学习导论:基于R应用》是一个很好的起点,尽管书中使用的R语言可能会使你将其与Python相混淆。但即便你在统计方面是一个不折不扣的新手,仍然可以做一些有趣的项目。让Python伴你前行!
21世纪标准普尔500指数*
编写一个程序,给出21世纪标准普尔500指数收盘价的一些基本统计量:平均值、标准差、偏斜度以及收盘价和交易量之间的相关性。为了确定得出的相关性是否可靠,可以从Yahoo! Finance2下载历史价格。应注意,21世纪是从2001年1月1日开始的。
营养物质网络***
美国农业部(USDA)营养数据库3包含大约9000种食物和150种营养成分的信息。当两种营养成分在所有食品中的量具有较强的且稳定的相关性时(相关度大于0.7,p值小于0.01),我们就假定这两种营养成分是相似的。编写一个程序,使用文件NUT_DATA.txt中的营养数据来构建相似营养成分的网络(你可能需要回顾第40单元)。网络中的每种营养成分是一个节点,当两种营养成分相似时,就将对应的两个节点相连。
网络是否存在社区结构?如果存在,在一起的是什么营养成分?
2finance.yahoo.com/q/hp?s=^GSP+Historical+Prices
3www.ars.usda.gov/Services/docs.htm?docid=25700 (document SR28)
在我的迪尔伯恩农场,所有工作都是用机器完成的。
——美国实业家亨利·福特
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论