返回介绍

轮到你了

发布于 2024-01-28 22:01:16 字数 1065 浏览 0 评论 0 收藏 0

本章讲解了如何从本地磁盘文件和互联网中提取数据,用恰当的数据结构存储数据,提取与特定模式匹配的位和片段,以及pickle数据以便进一步处理。在计算机科学中,虽然知识和技术是有限的,但需要提取数据的场景却各式各样、无穷无尽。应用数据提取可以实现不同的目的,处理各种复杂的问题。此处仅列出有限的几种应用。

词频计数器*

编写一个程序,用于下载用户请求的网页,并给出网页中使用频率最高的十个词,所有词不区分大小写。出于练习的目的,可以简单地假设一个词由正则表达式r"\w+"确定8

文件索引器**

编写一个程序,建立某个指定目录(文件夹)下所有文件的索引。程序应构造一个字典,其中键是所有文件中的所有唯一词(正则表达式r"\w+"所描述的、不区分大小写的词),并且字典里每个条目的值是包含该词的文件名列表。例如,如果单词aloha出现在文件early-internet.dat和hawaiian-travel.txt中,则字典将具有这样的条目:{...,'aloha':['early-internet.dat','hawaiian-travel.txt'],...}。

另外,程序应对该字典执行pickle操作,以供将来使用。

电话号码提取器***

编写一个程序,从给定的文本文件中提取出所有电话号码。这个任务并不容易,不同国家的电话号码书写格式超过几十种(请参考en.wikipedia.org/wiki/National_conventions_for_writing_telephone_numbers)。你能设计一个正则表达式来捕获它们吗?

如果这个任务对你来说不是很难,那你可以试试提取地址!

8中文的分词比英文复杂得多,最好使用英文网页完成该练习。——译者注

这个杰森是谁?为什么诸神都喜欢他?他从哪里来?他有什么样的故事?

——希腊诗人荷马

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文