SED - 无法对 UTF-8 编码字符执行某些命令

发布于 2024-11-02 07:25:49 字数 597 浏览 1 评论 0原文

我得到一个如下所示的文件：

<text top="123" left="45" width="50" height="17" font="8">Måndag</text>

正如主题中所述，该文件采用 utf-8 编码。使用此命令时：

cat file | sed 's_.*top="\([0-9][0-9]*\)" left="\([0-9][0-9]*\)".*>\(.*\)<.*_\1 \2 \3_'

它永远不会完成执行并且不打印任何内容。

然而，执行这样的一行：

cat file | sed 's/å/FOO/'

给了我一个正确的输出：

<text top="123" left="45" width="50" height="17" font="8">MFOOndag</text>

这是 sed 中的错误还是我的正则表达式或我使用它的方式有问题？我想要的是一种简洁的方法来提取顶部、左侧和内容数据，而不涉及太多命令。

原文

I got a file that looks like this:

<text top="123" left="45" width="50" height="17" font="8">Måndag</text>

As noted in the topic, this file is encoded in utf-8. When using this command:

cat file | sed 's_.*top="\([0-9][0-9]*\)" left="\([0-9][0-9]*\)".*>\(.*\)<.*_\1 \2 \3_'

it never completes the execution and prints nothing.

However executing a line like this one:

cat file | sed 's/å/FOO/'

gives me a correct output:

<text top="123" left="45" width="50" height="17" font="8">MFOOndag</text>

Is this a bug in sed or is there something wrong with my regex or the way that I'm using it? What I want is a neat way to extract the top, left and content data without involving too many commands.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

南烟 2024-11-09 07:25:49

可靠地做到这一点的最简单方法就是使用 perl 代替 sed：

bash$ perl -CSAD -pe 's/foo/bar/g'

这将允许在您的参数、std 流和您处理的所有文件中使用 Unicode。

The easiest way to do this reliably is just to use perl in place of sed:

bash$ perl -CSAD -pe 's/foo/bar/g'

That will allow Unicode in your arguments, your std streams, and all files you process.

回复收藏 0 原文

最美不过初阳 2024-11-09 07:25:49

并非所有 sed 都是为处理 UTF-8 而构建的。我会查看源代码以查看是否已应用任何相关补丁。 FTR、Red Hat 派生的 sed确实可以正确处理 UTF-8。

回复收藏 0 原文

冷情妓 2024-11-09 07:25:49

尝试这个建议。看起来它对你有用。

回复收藏 0 原文

~没有更多了~

关于作者

梓梦

暂无简介

0 文章

0 评论

23 人气

关注发私信

烙印

文章 0 评论 0

关注

singlesman

文章 0 评论 0

关注

给自己一个微笑

文章 0 评论 0

关注

独孤求败

文章 0 评论 0

关注

晨钟暮鼓

文章 0 评论 0

关注

我是自愿种绣球花的

文章 0 评论 0

友情链接

文江博客

SED - 无法对 UTF-8 编码字符执行某些命令

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

SED - 无法对 UTF-8 编码字符执行某些命令

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。