扩展“isalnum”识别 UTF-8 元音变音

发布于 2024-12-09 03:27:37 字数 615 浏览 0 评论 0原文

我编写了一个扩展 isalnum 的函数来识别 UTF-8 编码的元音变音。

是否有更优雅的方法来解决这个问题？

代码如下：

bool isalnumlaut(const char character) {
    int cr = (int) (unsigned char) character;
    if (isalnum(character)
            || cr == 195 // UTF-8
            || cr == 132 // Ä
            || cr == 164 // ä
            || cr == 150 // Ö
            || cr == 182 // ö
            || cr == 156 // Ü
            || cr == 188 // ü
            || cr == 159 // ß
    ) {
        return true;
    } else {
        return false;
    }
}

编辑：

我现在多次测试了我的解决方案，但它似乎可以满足我的目的。有强烈反对吗？

原文

I wrote a function which extends isalnum to recognize UTF-8 coded umlaut.

Is there maybe a more elegant way to solve this issue?

The code is as follows:

bool isalnumlaut(const char character) {
    int cr = (int) (unsigned char) character;
    if (isalnum(character)
            || cr == 195 // UTF-8
            || cr == 132 // Ä
            || cr == 164 // ä
            || cr == 150 // Ö
            || cr == 182 // ö
            || cr == 156 // Ü
            || cr == 188 // ü
            || cr == 159 // ß
    ) {
        return true;
    } else {
        return false;
    }
}

EDIT:

I tested my solution now several times, and it seems to do the job for my purpose though. Any strong objections?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

红焚 2024-12-16 03:27:37

您的代码不符合您的要求。

Ä 的 utf-8 表示形式是两个字节 - 0xC3,0x84。值高于 0x7F 的单个字节在 utf-8 中是没有意义的。

一些一般性建议：

Unicode 很大。考虑使用已经处理了您遇到的问题的库，例如 ICU。
函数在单个代码单元或代码点上运行通常没有意义。拥有对代码点范围或单个字形进行操作的函数更有意义（请参阅此处了解这些术语的定义）。
对于像通用字符集这样大的字符集，您的字母数字概念可能没有得到明确说明；您想将西里尔字母中的字符视为字母数字吗？ Unicode 关于字母的概念可能与您的不符 - 特别是如果您还没有考虑过的话。