内容来源于网络收集而来，版权归原创者所有，如有侵权请及时联系！

NLTK 基础教程：用 NLTK 和 Python 库构建机器学习应用 PDF

发布于 2024-01-16 18:41:57 字数 3446 浏览 67 评论 0

NLTK 库是当前自然语言处理（NLP）领域最为流行、使用最为广泛的库之一, 同时 Python 语言也已逐渐成为主流的编程语言之一。

本书主要介绍如何通过 NLTK 库与一些 Python 库的结合从而实现复杂的 NLP 任务和机器学习应用。全书共分为 10章。第 1 章对 NLP 进行了简单介绍。第 2 章、第 3 章和第 4 章主要介绍一些通用的预处理技术、专属于 NLP 领域的预处理技术以及命名实体识别技术等。第 5 章之后的内容侧重于介绍如何构建一些 NLP 应用，涉及文本分类、数据科学和数据处理、社交媒体挖掘和大规模文本挖掘等方面。

本书适合 NLP 和机器学习领域的爱好者、对文本处理感兴趣的读者、想要快速学习 NLTK 的资深 Python 程序员以及机器学习领域的研究人员阅读。

这是一本介绍 NLTK 库，以及如何将该库与其他 Python 库搭配运用的书。NLTK 是当前自然语言处理（NLP）社区中最为流行、使用最为广泛的库之一。NLTK 的设计充分体现了简单的魅力。也就是说，对于大多数复杂的 NLP 任务，它都可以用寥寥几行代码来实现。

本书的前半部分从介绍 Python 和 NLP 开始。在这部分内容中，你将会学到一些通用的预处理技术，例如标识化处理（tokenization）、词干提取（stemming）、停用词（stop word）去除；一些专属于 NPL 领域的预处理技术等，如词性标注（part-of-speech tagging）；以及大多数文本相关的 NLP 任务都会涉及的命名实体识别（Named-entity recognition，简称 NER）等技术。然后，我们会逐步将焦点转到更为复杂的 NLP 任务上，例如语法解析（parsing）以及其他 NLP 应用。

目录
第 1 章⾃然语⾔处理简介
1.1 为什么要学习 NLP
1.2 先从 Python 开始吧
1.2.1 列表
1.2.2 自助功能
1.2.3 正则表达式
1.2.4 字典
1.2.5 编写函数
1.3 向 NLTK 迈进
1.4 练习
1.5 小结
第 2 章⽂本的歧义及其清理
2.1 何谓文本歧义
2.2 文本清理
2.3 语句分离器
2.4 标识化处理
2.5 词干提取
2.6 词形还原
2.7 停用词移除
2.8 罕见词移除
2.9 拼写纠错
2.10 练习
2.11 小结
第 3 章词性标注
3.1 何谓词性标注
3.1.1 Stanford 标注器
3.1.2 深入了解标注器
3.1.3 顺序性标注器
3.1.4 Brill 标注器
3.1.5 基于机器学习的标注器
3.2 命名实体识别（NER）
NER 标注器
3.3 练习
3.4 小结
第 4 章⽂本结构解析
4.1 浅解析与深解析
4.2 两种解析方法
4.3 为什么需要进行解析
4.4 不同的解析器类型
4.4.1 递归下降解析器
4.4.2 移位-归约解析器
4.4.3 图表解析器
4.4.4 正则表达式解析器
4.5 依存性文本解析
4.6 语块分解
4.7 信息提取
4.7.1 命名实体识别（NER）
4.7.2 关系提取
4.8 小结
第 5 章 NLP 应⽤
5.1 构建第一个 NLP 应用
5.2 其他 NLP 应用
5.2.1 机器翻译
5.2.2 统计型机器翻译
5.2.3 信息检索
5.2.4 语音识别
5.2.5 文本分类
5.2.6 信息提取
5.2.7 问答系统
5.2.8 对话系统
5.2.9 词义消歧
5.2.10 主题建模
5.2.11 语言检测
5.2.12 光符识别
5.3 小结
第 6 章⽂本分类
6.1 机器学习
6.2 文本分类
6.3 取样操作
6.3.1 朴素贝叶斯法
6.3.2 决策树
6.3.3 随机梯度下降法
6.3.4 逻辑回归
6.3.5 支持向量机
6.4 随机森林算法
6.5 文本聚类
K 均值法
6.6 文本中的主题建模
安装 gensim
6.7 参考资料
6.8 小结
第 7 章 Web 爬⾍
7.1 Web 爬虫
7.2 编写第一个爬虫程序
7.3 Scrapy 库中的数据流
7.3.1 Scrapy 库的 shell
7.3.2 目标项
7.4 生成网站地图的蜘蛛程序
7.5 目标项管道
7.6 参考资料
7.7 小结
第 8 章 NLTK 与其他 Python 库的搭配运⽤
8.1 NumPy
8.1.1 多维数组
8.1.2 基本运算
8.1.3 从数组中提取数据
8.1.4 复杂矩阵运算
8.2 SciPy
8.2.1 线性代数
8.2.2 特征值与特征向量
8.2.3 稀疏矩阵
8.2.4 优化措施
8.3 pandas
8.3.1 读取数据
8.3.2 数列
8.3.3 列转换
8.3.4 噪声数据
8.4 matplotlib
8.4.1 子图绘制
8.4.2 添加坐标轴
8.4.3 散点图绘制
8.4.4 条形图绘制
8.4.5 3D 绘图
8.5 参考资料
8.6 小结
第 9 章 Python 中的社交媒体挖掘
9.1 数据收集
Twitter
9.2 数据提取
热门话题
9.3 地理可视化
9.3.1 影响力检测
9.3.2 Facebook
9.3.3 有影响力的朋友
9.4 小结
第 10 章⼤规模⽂本挖掘
10.1 在 Hadoop 上使用 Python 的不同方式
10.1.1 Python 的流操作
10.1.2 Hive/Pig 下的 UDF
10.1.3 流封装器
10.2 Hadoop 上的 NLTK
10.2.1 用户定义函数（UDF）
10.2.2 Python 的流操作
10.3 Hadoop 上的 Scikit-learn
10.4 PySpark
10.5 小结