返回介绍

3.4 映射的弹性键查询

发布于 2024-02-05 21:59:48 字数 6195 浏览 0 评论 0 收藏 0

有时候为了方便起见,就算某个键在映射里不存在,我们也希望在通过这个键读取值的时候能得到一个默认值。有两个途径能帮我们达到这个目的,一个是通过 defaultdict 这个类型而不是普通的 dict,另一个是给自己定义一个 dict 的子类,然后在子类中实现 __missing__ 方法。下面将介绍这两种方法。

3.4.1 defaultdict:处理找不到的键的一个选择

示例 3-5 在 collections.defaultdict 的帮助下优雅地解决了示例 3-4 里的问题。在用户创建 defaultdict 对象的时候,就需要给它配置一个为找不到的键创造默认值的方法。

具体而言,在实例化一个 defaultdict 的时候,需要给构造方法提供一个可调用对象,这个可调用对象会在 __getitem__ 碰到找不到的键的时候被调用,让 __getitem__ 返回某种默认值。

比如,我们新建了这样一个字典:dd = defaultdict(list),如果键 'new-key' 在 dd 中还不存在的话,表达式 dd['new-key'] 会按照以下的步骤来行事。

(1) 调用 list() 来建立一个新列表。

(2) 把这个新列表作为值,'new-key' 作为它的键,放到 dd 中。

(3) 返回这个列表的引用。

而这个用来生成默认值的可调用对象存放在名为 default_factory 的实例属性里。

示例 3-5 index_default.py:利用 defaultdict 实例而不是 setdefault 方法

"""创建一个从单词到其出现情况的映射"""

import sys
import re
import collections

WORD_RE = re.compile(r'\w+')

index = collections.defaultdict(list)    ➊
with open(sys.argv[1], encoding='utf-8') as fp:
  for line_no, line in enumerate(fp, 1):
    for match in WORD_RE.finditer(line):
      word = match.group()
      column_no = match.start()+1
      location = (line_no, column_no)
      index[word].append(location)   ➋

# 以字母顺序打印出结果
for word in sorted(index, key=str.upper):
  print(word, index[word])

➊ 把 list 构造方法作为 default_factory 来创建一个 defaultdict。

➋ 如果 index 并没有 word 的记录,那么 default_factory 会被调用,为查询不到的键创造一个值。这个值在这里是一个空的列表,然后这个空列表被赋值给 index[word],继而被当作返回值返回,因此 .append(location) 操作总能成功。

如果在创建 defaultdict 的时候没有指定 default_factory,查询不存在的键会触发 KeyError。

 defaultdict 里的 default_factory 只会在 __getitem__ 里被调用,在其他的方法里完全不会发挥作用。比如,dd 是个 defaultdict,k 是个找不到的键, dd[k] 这个表达式会调用 default_factory 创造某个默认值,而 dd.get(k) 则会返回 None。

所有这一切背后的功臣其实是特殊方法 __missing__。它会在 defaultdict 遇到找不到的键的时候调用 default_factory,而实际上这个特性是所有映射类型都可以选择去支持的。

3.4.2 特殊方法 __missing__

所有的映射类型在处理找不到的键的时候,都会牵扯到 __missing__ 方法。这也是这个方法称作“missing”的原因。虽然基类 dict 并没有定义这个方法,但是 dict 是知道有这么个东西存在的。也就是说,如果有一个类继承了 dict,然后这个继承类提供了 __missing__ 方法,那么在 __getitem__ 碰到找不到的键的时候,Python 就会自动调用它,而不是抛出一个 KeyError 异常。

 __missing__ 方法只会被 __getitem__ 调用(比如在表达式 d[k] 中)。提供 __missing__ 方法对 get 或者 __contains__(in 运算符会用到这个方法)这些方法的使用没有影响。这也是我在上一节最后的警告中提到,defaultdict 中的 default_factory 只对 __getitem__ 有作用的原因。

有时候,你会希望在查询的时候,映射类型里的键统统转换成 str。为可编程电路板(像 Raspberry Pi 或 Arduino4)准备的 Pingo.io 项目里就有具体的例子。在 Pingo.io 里,电路板上的 GPIO 针脚 5 以 board.pins 为名,封装在名为 board 的对象里。board.pins 是一个映射类型,其中键是针脚的物理位置,它可能只是一个数字或字符串,比如 "A0" 或 "P9_12";值则是针脚连接的东西。为了保持一致性,我们希望 board.pins 的键只能是字符串,但是为了方便查询,my_arduino.pins[13] 也是可行的,这样可以帮 Arduino 的初级玩家快速找到第 13 个针脚上的 LED 灯。示例 3-6 展示了这样的一个映射是怎么运行的。

4Raspberry Pi 是一个集成到巴掌大小的板子上的电脑。Arduino 则是一种可以在烧录程序的同时,连接上各种传感器,用以跟物理世界交互的电路板。更多的相关信息可以在 https://www.raspberrypi.org/https://www.arduino.cc/ 上找到。——译者注

5通用输入输出针脚,用来跟传感器或其他设备用数据互动。——译者注

示例 3-6 当有非字符串的键被查找的时候,StrKeyDict0 是如何在该键不存在的情况下,把它转换为字符串的

Tests for item retrieval using `d[key]` notation::

  >>> d = StrKeyDict0([('2', 'two'), ('4', 'four')])
  >>> d['2']
  'two'
  >>> d[4]
  'four'
  >>> d[1]
  Traceback (most recent call last):
    ...
  KeyError: '1'

Tests for item retrieval using `d.get(key)` notation::

  >>> d.get('2')
  'two'
  >>> d.get(4)
  'four'
  >>> d.get(1, 'N/A')
  'N/A'

Tests for the `in` operator::

  >>> 2 in d
  True
  >>> 1 in d
  False

示例 3-7 则实现了上面例子里的 StrKeyDict0 类。

 如果要自定义一个映射类型,更合适的策略其实是继承 collections.UserDict 类(示例 3-8 就是如此)。这里我们从 dict 继承,只是为了演示 __missing__ 是如何被 dict.__getitem__ 调用的。

示例 3-7 StrKeyDict0 在查询的时候把非字符串的键转换为字符串

class StrKeyDict0(dict):  ➊

  def __missing__(self, key):
    if isinstance(key, str):  ➋
      raise KeyError(key)
    return self[str(key)]  ➌

  def get(self, key, default=None):
    try:
      return self[key]  ➍
  except KeyError:
    return default  ➎

def __contains__(self, key):
  return key in self.keys() or str(key) in self.keys()  ➏

❶ StrKeyDict0 继承了 dict。

❷ 如果找不到的键本身就是字符串,那就抛出 KeyError 异常。

❸ 如果找不到的键不是字符串,那么把它转换成字符串再进行查找。

❹ get 方法把查找工作用 self[key] 的形式委托给 __getitem__,这样在宣布查找失败之前,还能通过 __missing__ 再给某个键一个机会。

❺ 如果抛出 KeyError,那么说明 __missing__ 也失败了,于是返回 default。

❻ 先按照传入键的原本的值来查找(我们的映射类型中可能含有非字符串的键),如果没找到,再用 str() 方法把键转换成字符串再查找一次。

下面来看看为什么 isinstance(key, str) 测试在上面的 __missing__ 中是必需的。

如果没有这个测试,只要 str(k) 返回的是一个存在的键,那么 __missing__ 方法是没问题的,不管是字符串键还是非字符串键,它都能正常运行。但是如果 str(k) 不是一个存在的键,代码就会陷入无限递归。这是因为 __missing__ 的最后一行中的 self[str(key)] 会调用 __getitem__,而这个 str(key) 又不存在,于是 __missing__ 又会被调用。

为了保持一致性,__contains__ 方法在这里也是必需的。这是因为 k in d 这个操作会调用它,但是我们从 dict 继承到的 __contains__ 方法不会在找不到键的时候调用 __missing__ 方法。__contains__ 里还有个细节,就是我们这里没有用更具 Python 风格的方式——k in my_dict——来检查键是否存在,因为那也会导致 __contains__ 被递归调用。为了避免这一情况,这里采取了更显式的方法,直接在这个 self.keys() 里查询。

 像 k in my_dict.keys() 这种操作在 Python 3 中是很快的,而且即便映射类型对象很庞大也没关系。这是因为 dict.keys() 的返回值是一个“视图”。视图就像一个集合,而且跟字典类似的是,在视图里查找一个元素的速度很快。在“Dictionary view objects”里可以找到关于这个细节的文档。Python 2 的 dict.keys() 返回的是个列表,因此虽然上面的方法仍然是正确的,它在处理体积大的对象的时候效率不会太高,因为 k in my_list 操作需要扫描整个列表。

出于对准确度的考虑,我们也需要这个按照键的原本的值来查找的操作(也就是 key in self.keys()),因为在创建 StrKeyDict0 和为它添加新值的时候,我们并没有强制要求传入的键必须是字符串。因为这个操作没有规定死键的类型,所以让查找操作变得更加友好。

好了,我们已经见识过 dict 和 defaultdict 了。但是标准库里面还有很多其他的映射类型,下面就来看看。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文