如何检测文本文件中的非英文字符?

发布于 2024-10-01 13:14:01 字数 389 浏览 3 评论 0原文

我想知道是否有一个 awk/sed 正则表达式,我可以用它来检测任何包含非英语字符的行,例如:

あと1つのスマッシュが見つからへん…もう寝よう
ความหวังดีของคนเรา สุดท้าย
Το θερμόμετρο χτυπάει
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!!

但由于它们是 Twitter 帖子,我需要保留带有链接、@ 符号的行,因此我相信我想要检测任何非 ASCII 字符吗?

感谢您的帮助,

托梅克

I was wondering if there was an awk/sed regex that I can use to detect any lines that contain non-english characters, for example:

あと1つのスマッシュが見つからへん…もう寝よう
ความหวังดีของคนเรา สุดท้าย
Το θερμόμετρο χτυπάει
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!!

but since they are twitter posts, I need to keep lines with links, @ symbols, therefore I believe I am looking to detect any non-ascii characters?

Thanks for any help,

Tomek

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

不气馁 2024-10-08 13:14:01

这有效吗?

/[^a-z0-9]/i

Does this work?

/[^a-z0-9]/i
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文