4.10 本章小结
内容小结:本章的内容侧重于实际经验的讲解,其中每个部分都凝结了笔者的工作体会,尤其是关于应用误区以及注意事项等内容,需要读者多加留意。除了常用的统计分析方法外,笔者还在内容延伸中拓展了部分文本分析和挖掘方法,而对于其他领域的分析和挖掘,例如图像、视频、语音等也都有特定的分析、挖掘和建模方法,限于篇幅无法一一介绍。内容中涉及技术的部分都有对应示例代码,该代码可在“附件-chapter4”中的名为chapter4_code.py的文件中找到。
重点知识:本章几乎在每个部分内容中都有“小结”,其中已经注明了重点知识和需要引起注意的知识点。
外部参考:本章中提到了一些知识需要读者通过外部途径做深入学习和了解。
尽管本章写的是有关分析和挖掘的内容,但几乎没有一点知识性和理论性的内容,如果读者有兴趣对于这些理论性内容,可以参考以下几本书:《数据挖掘概念与技术(原书第3版)》(《Data Mining Concepts and Techniques,Third Edition》),这本书是关于数据挖掘方面的专业著作;《深入浅出数据分析》,这是一本写的非常有趣的入门级的数据分析方法和理论书籍。
在本书中大量用到了占位符做格式化输出、变量定义等应用,有关占位符配合print打印输出还有更多内容,例如字符串类型、对其方式、格式化指示符等,请读者额外了解“Python print格式化输出”。
在做分类应用画树形图时用到了Graphviz,这是贝尔实验室开发的一个开源的工具包,它可以用于将结构信息表示为抽象图形和网络图。本章中展示决策树的规则应用只是其图形绘制能力的冰山一角。除了树图外,还可以绘制流程图、网络图等复杂关系和知识图谱,更多详细信息请参照http://www.graphviz.org。
有关非结构化处理还有更多领域的应用,例如文本分析和挖掘方向的提取相似关键字、文本摘要、文章相似度、文本分类等,网络应用领域的最短路径、PageRank、传播聚类,图像识别领域人脸识别、前后景分割、角点检测等知识需要读者书外了解。
应用实践:lambda表达式是一个非常好的解决“小问题”的功能方法,读者可写几个简单应用。
尝试对历史应用的项目进行反思和总结,看是否有本章中提到的问题而没有注意到。
自动化和工程化能有效提高重复性工作的效率,建议读者对现有手头工作做梳理,将重复工作中常用的经验和方法固定下来,通过程序的形式减少人工参与度,然后有更多时间参与到更多的学习和项目实践中。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论