文章来源于网络收集而来,版权归原创者所有,如有侵权请及时联系!
第6章 匹配 Unicode 和其他字符
有时我们需要匹配ASCII范围之外的字符。ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)定义了英文字符集(A到Z的大写和小写字母,以及控制字符与其他字符)。它的历史已经很久了,早在1968年这个基于拉丁字母的含有128个字符的字符集就得到了标准化。那时个人电脑、VisiCalc、鼠标、Web都还没有出现,而现在我仍然会经常在线查询ASCII字符表。
多年以前,我刚开始自己的职业生涯的时候,与一位工程师同事在钱包里放了一张ASCII码表。这是以防万一:出门时别忘记带上ASCII码表。
我并不否认ASCII的重要性,但是现在它已经过时了,尤其是我们有了可以表示超过10万个字符的Unicode标准(http://www.unicode.org)。然而,Unicode也没有完全舍弃ASCII,它将ASCII加入了它的基本拉丁(Basic Latin)码表中(参见http://www.unicode.org/charts/PDF/U0000.pdf)。
本章,我们将跳出ASCII的小圈子,投入已经较为普及的Unicode的世界。
本章第一个示例文本是代码库中的voltaire.txt文件,这是法国哲学家伏尔泰(1694—1778)的一段话。
Qu'est-ce que la tolérance? c'est l'apanage de l'humanité. Nous sommes tous pétris de faiblesses et d'erreurs; pardonnons-nous réciproquement nos sottises, c'est la première loi de la nature.
翻译成英文就是:
What is tolerance? It is the consequence of humanity. We are all formed of frailty and error; let us pardon reciprocally each other's folly—that is the first law of nature.
这段话的意思是:什么是宽容?它是人性的产物。我们生来都有缺陷和错误,就让我们原谅彼此的蠢行吧!这才是自然的第一法则。
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论