如何检测文本文件中的非英文字符?
我想知道是否有一个 awk/sed 正则表达式,我可以用它来检测任何包含非英语字符的行,例如:
あと1つのスマッシュが見つからへん…もう寝よう
ความหวังดีของคนเรา สุดท้าย
Το θερμόμετρο χτυπάει
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!!
但由于它们是 Twitter 帖子,我需要保留带有链接、@ 符号的行,因此我相信我想要检测任何非 ASCII 字符吗?
感谢您的帮助,
托梅克
I was wondering if there was an awk/sed regex that I can use to detect any lines that contain non-english characters, for example:
あと1つのスマッシュが見つからへん…もう寝よう
ความหวังดีของคนเรา สุดท้าย
Το θερμόμετρο χτυπάει
LA #MACIF a félicité #DotYou pour le site http://www.roulonspourlavenir.com , un petit compliment dans un monde de brutos... c'est bon ça!!
but since they are twitter posts, I need to keep lines with links, @ symbols, therefore I believe I am looking to detect any non-ascii characters?
Thanks for any help,
Tomek
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
这有效吗?
Does this work?