附录 1 扩展阅读
当你读到这里的时候,应该已经发现本书并未涉及多么高深的内容,本书假设你基本上知道应该做什么,只是不确定应该怎么做。我将在这里列出几本优秀的图书,供大家深入学习相关主题,当然,这些书中的内容难免存在一定程度的重复。
如果你不熟悉数据科学,但知道R语言或者至少不介意学习R语言,那么你可以参考《统计学习导论:基于R应用》和《数据科学:理论、方法与R语言实践》。前者是具有实用编程元素的统计学书,后者则是具有统计学元素的实用书,它们是一个很好的组合。另一本书The Elements of Data Analytic Style [Lee15]涉及不同的数据模型类型、报告撰写、创建支撑图片和编写可复现的代码。
《利用Python进行数据分析》是pandas的创作者Wes McKinney的经典pandas图书,涵盖了你想知道的关于pandas和numpy的所有内容,包括金融时间序列分析。这本书对很多案例进行了非常详细的分析。
《Python自然语言处理》既是一本Python教程,也是一个完整的NLP解决方案。这本书假定你并不知道Python,它不仅介绍了文本归一化和文字计数,还介绍了文本分类、句子结构分析和语义分析。你可以免费获取官方在线版本1!
社交网站是一个大型的迅猛扩展的原始数据仓库。《社交网站的数据挖掘与分析》仔细分析了应用程序的编程接口(API),使得你可以用Unix风格的邮箱、Twitter、LinkedIn、Google Buzz和Facebook。它很好地概述了最重要的自然语言处理任务。可惜的是,尽管这本书是近几年出版的,但它的大部分内容已经过时了:一些API已经改变,一些社交网络项目(比如Google Buzz)已经被终止了。
《MySQL必知必会》正如它所声称的,是关于如何建立、维护和操作关系数据库的全面的速成课。这本书没有涉及Python或任何其他语言的API。
在撰写本文时,还没有关于网络分析的Python图书。Network Analysis: Methodological Foundations [BE05]这本书并不适用于计算机程序员,实际上这是一本理论性非常强的书。《社交网络分析》对于不喜欢定理、证明和冗长公式的从业者来说更为合适。虽然使用了《社交网络分析》这个书名,但这本书的内容不仅限于社交网络,还对网络进行了很好的介绍。
最后,《数据科学入门》是本书的扩展。它扩展了统计学和机器学习的内容,是最适合接下来阅读的一本书。
在许多情况下,我们推断不出问题的正确解决方案,因为我们缺少数据。
——北美伦理学研究员Durant Drake
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论