当前位置：文江博客话题详情

非英语编程/脚本语言是如何开发的？

发布于 2024-08-22 23:05:41 字数 1435 浏览 4 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

找个人就嫁了吧 2024-08-29 23:05:41

您需要了解 Unicode 如何工作才能用国际语言构建解析器，是的，您确实需要是计算机科学专业的学生，或者具备自学自己编译器设计。

学习 unicode —— 学习使用 ICU —— 或具有良好 Unicode 支持的语言。
决定并构建虚拟机（或使用现有虚拟机）。
编写词法分析器/解析器或使用类似 ANTLR （基于 Java）的东西。
决定 AST
为 VM 生成指令流。

回复收藏 0 原文

孤寂小茶 2024-08-29 23:05:41

查看《编译器设计原理》

回复收藏 0 原文

素手挽清风 2024-08-29 23:05:41

您使用能够对扩展字符进行编码的字符集，例如 UTF8。 8 位以上的 Unicode 集以 UTF16 的双字节表示法或 UTF32 的四字节表示法编写。出现的问题是关于 dibi（双向表示法），其中使用不同 bidi 表示法的语言可能会以不同的顺序读取字节。双向问题的解决方案是通过在字符编码之前指定字节顺序，但问题仍然是之前关于双向差异的问题。因此，字节顺序是通过 Unicode 字符集的更具体的子集清楚地表述的。 UTF16BE，对于大端字节序，要求字节顺序规范在从右到左的解释中先于字符编码。相反的是 UTF16LE，或小端。

还有 UCS，通用字符集。这一术语仍在使用，但已被弃用，因为它对于上面提到的有关映射占用多个字节的字符的问题不够具体。有关 UCS 和 Unicode 之间差异的信息，请阅读以下内容：http://en.wikipedia.org /wiki/Universal_Character_Set#Differences_ Between_ISO_10646_and_Unicode

一些示例如下：
IRI - RFC 3987 - http://www.ietf.org/rfc/rfc3987.txt - 强制使用 UTF8 编码
邮件标记语言 - http://mailmarkup.org/ - 强制使用 UTF16BE 编码

回复收藏 0 原文

~没有更多了~

关于作者

雨后彩虹

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

非英语编程/脚本语言是如何开发的？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

13886483628

流年已逝

℡寂寞咖啡

笑看君怀她人

wkeithbarry

素手挽清风

友情链接

非英语编程/脚本语言是如何开发的？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

13886483628

流年已逝

℡寂寞咖啡

笑看君怀她人

wkeithbarry

素手挽清风

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。