轮到你了
本章讲解了如何从本地磁盘文件和互联网中提取数据,用恰当的数据结构存储数据,提取与特定模式匹配的位和片段,以及pickle数据以便进一步处理。在计算机科学中,虽然知识和技术是有限的,但需要提取数据的场景却各式各样、无穷无尽。应用数据提取可以实现不同的目的,处理各种复杂的问题。此处仅列出有限的几种应用。
词频计数器*
编写一个程序,用于下载用户请求的网页,并给出网页中使用频率最高的十个词,所有词不区分大小写。出于练习的目的,可以简单地假设一个词由正则表达式r"\w+"确定8。
文件索引器**
编写一个程序,建立某个指定目录(文件夹)下所有文件的索引。程序应构造一个字典,其中键是所有文件中的所有唯一词(正则表达式r"\w+"所描述的、不区分大小写的词),并且字典里每个条目的值是包含该词的文件名列表。例如,如果单词aloha出现在文件early-internet.dat和hawaiian-travel.txt中,则字典将具有这样的条目:{...,'aloha':['early-internet.dat','hawaiian-travel.txt'],...}。
另外,程序应对该字典执行pickle操作,以供将来使用。
电话号码提取器***
编写一个程序,从给定的文本文件中提取出所有电话号码。这个任务并不容易,不同国家的电话号码书写格式超过几十种(请参考en.wikipedia.org/wiki/National_conventions_for_writing_telephone_numbers)。你能设计一个正则表达式来捕获它们吗?
如果这个任务对你来说不是很难,那你可以试试提取地址!
8中文的分词比英文复杂得多,最好使用英文网页完成该练习。——译者注
这个杰森是谁?为什么诸神都喜欢他?他从哪里来?他有什么样的故事?
——希腊诗人荷马
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论