文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第 3 章 使用文本数据
原始数据通常来自各种文本文档:结构化文档(HTML、XML、CSV和JSON文件)或非结构化文档(简单的、人类可读的文本)。事实上,非结构化文本可能是最难处理的数据源,因为处理软件必须推断出数据项的含义。
上一段中提到的所有数据表示都是人类可读的(这正是称它们为文本文档的原因)。必要时,可以用简单的文本编辑器(Windows上的Notepad、Linux上的gedit,以及Mac OS X上的TextEdit)打开任意的文本文件,进行阅读或者完成编辑。在没有其他可用工具的情况下,可以不去管具体的数据表示方法,而是将文本文档视为普通文本,直接使用核心Python的字符串函数来处理(参考第4单元)。
值得庆幸的是,Anaconda提供了几个优秀的模块——BeautifulSoup、csv、json和nltk——使原本枯燥的文本分析工作变得令人兴奋。按照奥卡姆剃刀原理——如无必要,勿增实体(这一原理实际上是由约翰·庞奇而不是由奥卡姆制定的),我们应该避免重新发明已经存在的工具。该原理不仅适用于文本处理工具,而且适用于所有Anaconda软件包。
本章通过简单的结构化数据开启文本数据处理的学习。然后,你将了解如何通过自然语言处理技术,向非结构化文本添加某些结构。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论