- 前言
- 目标读者
- 非目标读者
- 本书的结构
- 以实践为基础
- 硬件
- 杂谈:个人的一点看法
- Python 术语表
- Python 版本表
- 排版约定
- 使用代码示例
- 第一部分 序幕
- 第 1 章 Python 数据模型
- 第二部分 数据结构
- 第 2 章 序列构成的数组
- 第 3 章 字典和集合
- 第 4 章 文本和字节序列
- 第三部分 把函数视作对象
- 第 5 章 一等函数
- 第 6 章 使用一等函数实现设计模式
- 第 7 章 函数装饰器和闭包
- 第四部分 面向对象惯用法
- 第 8 章 对象引用、可变性和垃圾回收
- 第 9 章 符合 Python 风格的对象
- 第 10 章 序列的修改、散列和切片
- 第 11 章 接口:从协议到抽象基类
- 第 12 章 继承的优缺点
- 第 13 章 正确重载运算符
- 第五部分 控制流程
- 第 14 章 可迭代的对象、迭代器和生成器
- 14.1 Sentence 类第1版:单词序列
- 14.2 可迭代的对象与迭代器的对比
- 14.3 Sentence 类第2版:典型的迭代器
- 14.4 Sentence 类第3版:生成器函数
- 14.5 Sentence 类第4版:惰性实现
- 14.6 Sentence 类第5版:生成器表达式
- 14.7 何时使用生成器表达式
- 14.8 另一个示例:等差数列生成器
- 14.9 标准库中的生成器函数
- 14.10 Python 3.3 中新出现的句法:yield from
- 14.11 可迭代的归约函数
- 14.12 深入分析 iter 函数
- 14.13 案例分析:在数据库转换工具中使用生成器
- 14.14 把生成器当成协程
- 14.15 本章小结
- 14.16 延伸阅读
- 第 15 章 上下文管理器和 else 块
- 第 16 章 协程
- 第 17 章 使用期物处理并发
- 第 18 章 使用 asyncio 包处理并发
- 第六部分 元编程
- 第 19 章 动态属性和特性
- 第 20 章 属性描述符
- 第 21 章 类元编程
- 结语
- 延伸阅读
- 附录 A 辅助脚本
- Python 术语表
- 作者简介
- 关于封面
文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
A.4 第14章:转换数据库的 isis2json.py 脚本
示例 A-5 是 14.13 节讨论的 isis2json.py 脚本。这个脚本使用生成器函数,以惰性的方式把 CDS/ISIS 数据库转换成 JSON 格式,以便载入到 CouchDB 或 MongoDB。
注意,这是个 Python 2 脚本,针对 CPython 或 Jython,支持 Python 2.5~2.7,不能使用 Python 3 运行。在 CPython 中,只能读取 .iso 文件;在 Jython 中,使用 GitHub 中 fluentpython/isis2json 仓库里的 Bruma 库,还可以读取 .mst 文件。详情参见该仓库里的用法文档。
示例 A-5 isis2json.py:依赖和文档在 GitHub 中的 fluentpython/isis2json 仓库里
# 这个脚本支持Python和Jython(版本>=2.5且<3) import sys import argparse from uuid import uuid4 import os try: import json except ImportError: if os.name == 'java': # 在Jython中运行 from com.xhaus.jyson import JysonCodec as json else: import simplejson as json SKIP_INACTIVE = True DEFAULT_QTY = 2**31 ISIS_MFN_KEY = 'mfn' ISIS_ACTIVE_KEY = 'active' SUBFIELD_DELIMITER = '^' INPUT_ENCODING = 'cp1252' def iter_iso_records(iso_file_name, isis_json_type): ➊ from iso2709 import IsoFile from subfield import expand iso = IsoFile(iso_file_name) for record in iso: fields = {} for field in record.directory: field_key = str(int(field.tag)) # 删除前导零 field_occurrences = fields.setdefault(field_key, []) content = field.value.decode(INPUT_ENCODING, 'replace') if isis_json_type == 1: field_occurrences.append(content) elif isis_json_type == 2: field_occurrences.append(expand(content)) elif isis_json_type == 3: field_occurrences.append(dict(expand(content))) else: raise NotImplementedError('ISIS-JSON type %s conversion ' 'not yet implemented for .iso input' % isis_json_type) yield fields iso.close() def iter_mst_records(master_file_name, isis_json_type): ➋ try: from bruma.master import MasterFactory, Record except ImportError: print('IMPORT ERROR: Jython 2.5 and Bruma.jar ' 'are required to read .mst files') raise SystemExit mst = MasterFactory.getInstance(master_file_name).open() for record in mst: fields = {} if SKIP_INACTIVE: if record.getStatus() != Record.Status.ACTIVE: continue else: # 仅当没有活动的记录时才保存状态 fields[ISIS_ACTIVE_KEY] = (record.getStatus() == Record.Status.ACTIVE) fields[ISIS_MFN_KEY] = record.getMfn() for field in record.getFields(): field_key = str(field.getId()) field_occurrences = fields.setdefault(field_key, []) if isis_json_type == 3: content = {} for subfield in field.getSubfields(): subfield_key = subfield.getId() if subfield_key == '*': content['_'] = subfield.getContent() else: subfield_occurrences = content.setdefault(subfield_key, []) subfield_occurrences.append(subfield.getContent()) field_occurrences.append(content) elif isis_json_type == 1: content = [] for subfield in field.getSubfields(): subfield_key = subfield.getId() if subfield_key == '*': content.insert(0, subfield.getContent()) else: content.append(SUBFIELD_DELIMITER + subfield_key + subfield.getContent()) field_occurrences.append(''.join(content)) else: raise NotImplementedError('ISIS-JSON type %s conversion ' 'not yet implemented for .mst input' % isis_json_type) yield fields mst.close() def write_json(input_gen, file_name, output, qty, skip, id_tag, ➌ gen_uuid, mongo, mfn, isis_json_type, prefix, constant): start = skip end = start + qty if id_tag: id_tag = str(id_tag) ids = set() else: id_tag = '' for i, record in enumerate(input_gen): if i >= end: break if not mongo: if i == 0: output.write('[') elif i > start: output.write(',') if start <= i < end: if id_tag: occurrences = record.get(id_tag, None) if occurrences is None: msg = 'id tag #%s not found in record %s' if ISIS_MFN_KEY in record: msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) raise KeyError(msg % (id_tag, i)) if len(occurrences) > 1: msg = 'multiple id tags #%s found in record %s' if ISIS_MFN_KEY in record: msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) raise TypeError(msg % (id_tag, i)) else: # 好吧,有且仅有一个id字段 if isis_json_type == 1: id = occurrences[0] elif isis_json_type == 2: id = occurrences[0][0][1] elif isis_json_type == 3: id = occurrences[0]['_'] if id in ids: msg = 'duplicate id %s in tag #%s, record %s' if ISIS_MFN_KEY in record: msg = msg + (' (mfn=%s)' % record[ISIS_MFN_KEY]) raise TypeError(msg % (id, id_tag, i)) record['_id'] = id ids.add(id) elif gen_uuid: record['_id'] = unicode(uuid4()) elif mfn: record['_id'] = record[ISIS_MFN_KEY] if prefix: # 迭代一个固定的标签序列 for tag in tuple(record): if str(tag).isdigit(): record[prefix+tag] = record[tag] del record[tag] # 这就是迭代元组的原因 # 获取标签,但不直接从记录字典中获取 if constant: constant_key, constant_value = constant.split(':') record[constant_key] = constant_value output.write(json.dumps(record).encode('utf-8')) output.write('\n') if not mongo: output.write(']\n') def main(): ➍ # 创建解析器 parser = argparse.ArgumentParser( description='Convert an ISIS .mst or .iso file to a JSON array') # 添加参数 parser.add_argument( 'file_name', metavar='INPUT.(mst|iso)', help='.mst or .iso file to read') parser.add_argument( '-o', '--out', type=argparse.FileType('w'), default=sys.stdout, metavar='OUTPUT.json', help='the file where the JSON output should be written' ' (default: write to stdout)') parser.add_argument( '-c', '--couch', action='store_true', help='output array within a "docs" item in a JSON document' ' for bulk insert to CouchDB via POST to db/_bulk_docs') parser.add_argument( '-m', '--mongo', action='store_true', help='output individual records as separate JSON dictionaries, one' ' per line for bulk insert to MongoDB via mongoimport utility') parser.add_argument( '-t', '--type', type=int, metavar='ISIS_JSON_TYPE', default=1, help='ISIS-JSON type, sets field structure: 1=string, 2=alist,' ' 3=dict (default=1)') parser.add_argument( '-q', '--qty', type=int, default=DEFAULT_QTY, help='maximum quantity of records to read (default=ALL)') parser.add_argument( '-s', '--skip', type=int, default=0, help='records to skip from start of .mst (default=0)') parser.add_argument( '-i', '--id', type=int, metavar='TAG_NUMBER', default=0, help='generate an "_id" from the given unique TAG field number' ' for each record') parser.add_argument( '-u', '--uuid', action='store_true', help='generate an "_id" with a random UUID for each record') parser.add_argument( '-p', '--prefix', type=str, metavar='PREFIX', default='', help='concatenate prefix to every numeric field tag' ' (ex. 99 becomes "v99")') parser.add_argument( '-n', '--mfn', action='store_true', help='generate an "_id" from the MFN of each record' ' (available only for .mst input)') parser.add_argument( '-k', '--constant', type=str, metavar='TAG:VALUE', default='', help='Include a constant tag:value in every record (ex. -k type:AS)') ''' # TODO: 实现这个功能,导出大量记录供给CouchDB parser.add_argument( '-r', '--repeat', type=int, default=1, help='repeat operation, saving multiple JSON files' ' (default=1, use -r 0 to repeat until end of input)') ''' # 解析命令行 args = parser.parse_args() if args.file_name.lower().endswith('.mst'): input_gen_func = iter_mst_records ➎ else: if args.mfn: print('UNSUPORTED: -n/--mfn option only available for .mst input.') raise SystemExit input_gen_func = iter_iso_records ➏ input_gen = input_gen_func(args.file_name, args.type) ➐ if args.couch: args.out.write('{ "docs" : ') write_json(input_gen, args.file_name, args.out, args.qty, ➑ args.skip, args.id, args.uuid, args.mongo, args.mfn, args.type, args.prefix, args.constant) if args.couch: args.out.write('}\n') args.out.close() if __name__ == '__main__': main()
❶ iter_iso_records 生成器函数读取 .iso 文件,产出记录。
❷ iter_mst_records 生成器函数读取 .mst 文件,产出记录。
❸ write_json 函数迭代 input_gen 生成器,输出 .json 文件。
❹ main 函数读取命令行参数,然后根据输入文件的扩展名选择……
❺ ……iter_mst_records 生成器函数……
❻ …… 或者 iter_iso_records 生成器函数。
❼ 使用选中的生成器函数构建生成器对象。
❽ 把生成器作为第一个参数传给 write_json 函数。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论