返回介绍

13.2 字符串类型

发布于 2025-03-08 15:27:37 字数 6633 浏览 0 评论 0 收藏 0

使用字符串类来代替标准的字符串指针的好处是被普遍接受的.而 wxWidgets 就提供了它自己的字符串类:wxString,无论在 wxWidgets 内部还是在其提供的 API 接口上,这个类都被很广泛的使用.wxString 类拥有你对一个字符串类期待的所有的操作,包括:动态内存管理,从其它字符串类型构建,赋值操作,单个字符访问,字符串连接和比较,子字符串获取,大小写转换,空格字符的修剪和补齐,查找和替换,类似 C 语言 printf 的操作以及类似流一样的插入函数等等。

除了上述的这些字符串处理常用功能,wxString 还支持一些额外的特性.wxString 完美支持 Unicode,包括 ANSI 字符和 Unicode 的互相转换,这个特性是和 wxWidgets 的编译配置无关的.使用 wxString 还使得你的代码拥有直接将字符串传递给库函数以及直接从库函数返回字符串的能力.另外,wxString 已经实现了 90%的 STL 中的 std::string 类的函数,这意味着对 STL 熟悉的用户基本上不需要重新学习 wxString 的使用方法。

使用 wxString

在你的应用程序中使用 wxString 类型是非常简单而直接的.将你程序中使用 std::string 或者是别的你习惯的字符串类的地方,全部用 wxString 代替基本就可以了.要注意的是,所有参数中使用字符串的地方,最好使用 const wxString&这样的声明(这使得函数内部对于字符串的赋值操作由于使用了引用记数器技术而变得更快速),而所有返回值中使用的字符串则最好直接使用 wxString 类型,这使得在函数内部即使返回一个局部变量也是安全的。

C 和 C++的程序员通常都已经很熟悉字符串的各种操作了,因此 wxString 的详细的 API 参考就不在这里罗嗦了,请参考 wxWidgets 的相关文档。

你可能会注意到 wxString 的好多函数具有同样的功能,比如 Length,Len 和 length 函数都返回这个字符串的长度.在这种情况下,你最好使用标准 STL 兼容的函数形式.这会让你的代码对别的程序员来说更亲切,并且将使你的代码更容易转换为别的不使用 wxWidgets 库的代码,你甚至可以直接使用 typedef 将 wxString 重定义为 std::string.另外 wxWidgets 某一天可能会开始使用标准的 std:: string,因此这种作法也会让你的代码更容易保持前向兼容.(当然,wxString 的函数也会保留以保证后向兼容.)

wxString,字符以及字符串常量

wxWidgets 定义了一个 wxChar 类型,在不同的编译选项(ANSI 或 Unicode) 下,这个类型用来映射 char 类型或者 wchar_t 类型.象前面提到的那样,你不必使用单独的 char 类型或者 wchar_t 类型,wxString 内部存储数据的时候使用的是相应的 C 类型.在任何时候,如果你需要对单个字符进行操作,你应该使用 wxChar 类型,这将使得你的代码在 ANSI 版本和 Unicode 版本中保持一致,而不必使用大量的预定义宏。

如果 wxWidgets 被编译成 Unicode 的版本,和标准字符串常量是不兼容的,因为标准字符串常量无论在哪种版本中都是 char*类型.如果你想在 Unicode 版本中直接使用字符串常量,你应该使用一个转义宏 L.wxWidgets 提供了一个宏 wxT(或者_T) 来封装字符串常量,这个宏在 ANSI 版本中被定义为什么事情也不做,而在 Unicode 版本中则用来封装 L 宏,因此无论在哪种版本中,你都可以使用下面的方法使用字符串常量:

wxChar ch = wxT('*');
wxString s = wxT("Hello, world!");
wxChar* pChar = wxT("My string");
wxString s2 = pChar;

关于使用 Unicode 版本的更详细的信息,请参考第 16 章:"编写国际化应用程序"。

wxString 到 C 指针的转换基础

因为有时候你需要直接以 C 类型访问 wxString 的内部数据进行底层操作,wxWidgets 提供了几种对应的访问方法:

  • mb_str 函数无论在 ANSI 版本 还是 Unicode 版本都返回一个 const char类型的指针 const char, 如果是 Unicode 版本,则字符串首先经过转换,转换过程可能导致数据丢失。
  • wc_str 函数无论在 ANSI 版本还是 Unicode 版本都返回一个 wchar_t*类型,如果是 ANSI 版本,则字符串首先被转换成 Unicode 版本然后再返回。
  • c_str 则返回一个指向内部数据的指针 (ANSI 版本为 const char类型, Unicode 版本为 const wchar_t类型).不进行任何转换。

你可以使用 c_str 函数的特性实现 wxString 和 std::string 之间的转换,如下所示:

std::string str1 = wxT("hello");
wxString str2 = str1.c_str();
std::string str3 = str2.c_str();

使用 wxString 经常遇到的一个陷井是过度使用对 const char*类型的隐式的类型强制转换.我们建议你在任何需要使用这种转换的时候,显式使用 c_str 来指明这种转换,下面的代码演示了两个常见的错误:

// 这段代码将输入的字符串转换为大写函数,然后将其打印在屏幕上
// 并且返回转换以后的值 (这是一个充满 bug 的代码)
const char *SayHELLO(const wxString& input)
{
    wxString output = input.Upper();
    printf("Hello, %s!\n", output);
    return output;
}

上面这四行代码有两个危险的缺陷,第一个是对 printf 函数的调用.在类似 puts 这样的函数中,隐式的类型强制转换是没有问题的,因为 puts 声明其参数为 const char*类型,但是对于 printf 函数,它的参数采用的是可变参数类型,这意味着上述 printf 代码的执行结果可能是任何一个种结果(包括正确打印出期待结果),不过最常见的一种结果是程序异常退出,因此,应该使用下面的代码代替上面的 printf 语句:

printf(wxT("Hello, %s!\n"), output.c_str());

第二个错误在于函数的返回值.隐式类型强制转换又被使用了以此,因为这个函数的返回值是 const char*类型,这样的代码编译是没有问题的,但是它返回的将是一个局部变量的内部指针,而这个局部变量在函数返回以后就很快被释放了,因此返回的指针将变成一个无效指针.解决的方法很简单,应该将返回类型更改为 wxString 类型,下面列出了修改了以后的代码:

// 这段代码将输入的字符串转换为大写函数,然后将其打印在屏幕上
// 并且返回转换以后的值 (这是正确的代码)
wxString SayHELLO(const wxString& input)
{
    wxString output = input.Upper();
    printf(wxT("Hello, %s!\n"), output.c_str());
    return output;
}

标准 C 的字符串处理函数

因为大多数的应用程序都要处理字符串,因此标准 C 提供了一套相应的函数库.不幸的是,它们中的一部分是有缺陷的(比如 strncpy 函数有时候不会添加结束符 NULL),另外一部分则可能存在缓冲区溢出的危险.而另一方面,一些很有用的函数却没能够进入标准的 C 函数库.这些都是为什么 wxWidgets 要提供自己的额外的全局静态函数的原因,wxWidgets 的一些静态函数视图避免这些缺陷:wxIsEmpty 函数增加了对字符串是否为 NULL 的校验,在这种情况下也返回 True.wxStrlen 函数也可以处理 NULL 指针,而返回 0.wxStricmp 函数则是一个平台相关的大小写敏感字符串比较函数,它在某些平台上使用 stricmp 函数而在另外一些平台上则使用 strcasecmp 函数。

"wx/string.h"头文件中定义了 wxSnprintf 函数和 wxVsnprintf,你应该使用它们代替标准的 sprintf 函数以避免一些 sprintf 函数先天的危险.带"n"的函数使用了 snprintf 函数,这个函数在可能的时候对缓冲区进行大小检查.你还可以使用 wxString::Printf 而不必担心遭受可能受到的针对 printf 的缓冲区溢出攻击。

和数字的相互转换

应用程序经常需要实现数字和字符串之间的转换,比如将用户的输入转换成数字或者将计算的结果显示在用户街面上。

ToLong(long* val, int base=10) 函数可以将字符串转换成一个给定进制的有符号整数.它在成功的时候返回 True 并将结果保存在 val 中,如果返回值是 False,则表明字符串不是一个有效的对应的进制的数字.指定的进制必须是 2 到 36 的整数,0 意味着根据字符串的前导符决定: 0x 开头的字符串被认为是 16 进制的, 0-则被认为是 8 进制的,其它情况下认为是 10 进制的。

ToULong(unsigned long* val, int base=10) 的工作模式和 ToLong 函数一致,不过它的转换结果为无符号类型。

ToDouble(double* val) 则实现字符串到浮点数的转换.返回值为 Bool 类型。

Printf(const wxChar* pszFormat, ...) 和 C 语言的 sprintf 函数类似,将格式化的文本作为自己的内容.返回值为填充字符串的长度。

静态函数 Format(const wxChar* pszFormat, ...) 则将格式化的字符串作为返回值.因此你可以使用下面的代码:

int n = 10;
wxString s = "Some Stuff";
s += wxString::Format(wxT("%d"),n );

操作符"<<"可以用来在 wxString 中添加一个 int,float 或者是 double 类型的值。

wxStringTokenizer

wxStringTokenizer 帮助你将一个字符串分割成几个小的字符串,它被用类代替和扩展标准 C 函数 strtok,它的使用方法是:传递一个字符串和一个可选的分割符(默认为空白符),然后循环调用 GetNextToken 函数直到 HasMoreTokens 返回 False,如下所示:

wxStringTokenizer tkz(wxT("first:second:third:fourth"), wxT(":"));
while ( tkz.HasMoreTokens() )
{
    wxString token = tkz.GetNextToken();
    // 处理单个字符串
}

默认情况下,wxStringTokenizer 对于全空字符串的处理和 strtok 的处理相同,但是和标准函数不同的是,如果分割符为非空字符,它将把空白部分也作为一个子字符串返回.这对于处理那些格式化的表格数据(每一行的列数相同但是单元格数据可能为空) 是比较有好处的,比如使用 tab 或者逗号作为分割符的情况。

wxStringTokenizer 的行为还受最后一个参数的影响,相关的描述如下:

  • wxTOKEN_DEFAULT: 如前所述的默认处理方式; 如果分割符为空白字符则等同于 wxTOKEN_STRTOK,否则等同于 wxTOKEN_RET_EMPTY。
  • wxTOKEN_RET_EMPTY: 在这种模式,空白部分将作为一个子字符串部分被返回,例如"a::b:"如果用":"分割则返回三个子字符串 a, ""和 b。
  • wxTOKEN_RET_EMPTY_ALL: 在这种模式下,最后的空白部分也将作为一个子字符串返回. 这样"a::b:"使用":"分割将返回四个子字符串,其三个和 wxTOKEN_RET_EMPTY 返回的相同,最后一个则为一个""。
  • wxTOKEN_RET_DELIMS: 在这种模式下,分割符也作为子字符串的一部分(除了最后一个子字符串,它是没有分割符的),其它方面类似 wxTOKEN_RET_EMPTY。
  • wxTOKEN_STRTOK: 这种情况下,子字符串的产生结果和标准 strtok 函数完全相同.空白字符串将不作为一个子字符串。

wxStringTokenizer 还有下面两个有用的成员函数:

  • CountTokens 函数返回分割完的子字符串的数目。
  • GetPosition 返回某个位置的子字符串。

wxRegEx

wxRegEx 类用来实现正则表达式.这个类支持的操作包括正则表达式查找和替换.其实现方式有基于系统正则表达式库(比如现代的类 Unix 系统以及 Mac OSX 支持的 POSIX 标准正则表达式库) 或者基于由 Henry Spencer 提供的 wxWidgets 内建库.POSIX 定义的正则表达式有基础和扩展两套版本.内建的版本支持这两种模式而基于系统库的版本则不支持扩展模式。

即使是对于那些支持正则表达式库的系统,wxWidgets 默认的 Unicode 版本也采用了内建的正则表达式版本,ANSI 版本则使用系统提供的版本.记住只有内建版本的正则表达式库才能完全支持 Unicode.当编译 wxWidgets 的时候,覆盖这种默认设置是被允许的.如果在使用系统正则表达式库的 Unicode 版本中,在使用对应函数的之前,表达式和要匹配的数据都将被转换成 8-bit 编码的 Unicode 方式。

使用 wxRegEx 的方法和其它所有使用正则表达式的方法没有区别.因为正则表达式的内容较为罗嗦而且又鉴于正则表达式的只在特定情况下使用,请参考 wxWidgets 手册中的相关内容了解具体的 API。

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据
    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文