正则表达式替换多字节字符？

发布于 2024-10-09 05:49:58 字数 352 浏览 5 评论 0原文

是否有类似正则表达式的东西可以用它们自己替换多字节字符？

即我有一个很大的文本文件，其中包含这样的字符：

漁魚京供侠競共

并且想要将它们替换为：

漁;
魚;
京;
供;
...

如何使用正则表达式来做到这一点？我已经尝试过：

(.)

替换为

\1;\n

but 将多字节字符（即 utf8）“拆分”为每行一个字节（因此一个字符被拆分为 2 行以上）。对于单字节字符它工作得很好...任何帮助将不胜感激。

原文

Is there something like an regular expression to replace multibyte characters with them self?

i.e. I have an large textfile with characters like this:

漁魚京供侠競共

and want to replace them like:

漁;
魚;
京;
供;
...

How can I do this, using a regular expression? I tried already:

(.)

replace with

\1;\n

but that "splits" multibyte characters (i.e. utf8) to one byte per line (so one character is over 2 lines splitted). For single-byte characters it works fine... Any help would be highly appreciated.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

失去的东西太少 2024-10-16 05:49:58

我使用 Vim。我创建了一个新文件并将您的示例文本（渔鱼京供侠竞共）粘贴到一行中。然后我输入：

:%s/./\0;Ctrl+VEnter/g

这成功地分隔了行，因为您要求。

命令为：

: - 启动一个新命令（在 vim 命令行上）
% - 将更改应用于整个文件
s/// - 替换
\0 - 对整个原始匹配的反向引用（也可以使用 (.) 和 \1）
Ctrl +V - 将下一个击键转义为文字字符
g - 替换每行上的所有匹配项

回复收藏 0 原文

满地尘埃落定 2024-10-16 05:49:58

使用 \P{M}\p{M}* 作为替代。要匹配任意数量的字素，请使用 (?:\P{M}\p{M}*)+ 而不是 \X+

您可以使用

(?:\P{M}\p{M}*)

instead of

(.)

in .NET.

请参阅正则表达式 - Unicode 字符和属性

回复收藏 0 原文

~没有更多了~

关于作者

高冷爸爸

暂无简介

0 文章

0 评论

25 人气

关注发私信

Gabu-gabumon

文章 0 评论 0

关注

qq_CgiN62

文章 0 评论 0

关注

荔枝明

文章 0 评论 0

关注

赏烟花じ飞满天

文章 0 评论 0

关注

独守阴晴ぅ圆缺

文章 0 评论 0

关注

¤→小豸慧

文章 0 评论 0

友情链接

文江博客

正则表达式替换多字节字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

正则表达式替换多字节字符？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

Gabu-gabumon

qq_CgiN62

荔枝明

赏烟花じ飞满天

独守阴晴ぅ圆缺

¤→小豸慧

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。