当前位置：文江博客话题详情

越南语字符的正则表达式

发布于 2024-09-25 01:28:43 字数 197 浏览 9 评论 0原文

我有一个字符串，想要删除以下任何情况下都不存在的任何字符：

不在该列表中： ẶẸẺẼỀỀỂ ưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỐỘỚỜỞỠỢỤỦỨỪễ
>
中，不是：_和白空间。

谁能帮我解决 php 中的这个正则表达式？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

绝影如岚 2024-10-02 01:28:44

$newtext = preg_replace('/[^a-z0-9A-Z_[:space:]ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂ ưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u','',$text);

$newtext = preg_replace('/[^a-z0-9A-Z_[:space:]ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂ ưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u','',$text);

回复收藏 0 原文

少钕鈤記 2024-10-02 01:28:44

您可以尝试，使用以下正则表达式传递“ê,ế,Ê,Ế”：^[a-zA-Z_ÀÁÂÈÉÊẾÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêếìíòóôõùúăđĩũơƯĂẠẢẤ ẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂưăạảấầ ẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎᐐ ỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸ ửữựỳỵỷỹ\]+$

回复收藏 0 原文

別甾虛僞 2024-10-02 01:28:44

使用Js你可以添加这个

const regex = /^[^\u00C0-\u1EF9]+$/i;

regex.test("Việt") -> false

with Js you can add this

const regex = /^[^\u00C0-\u1EF9]+$/i;

regex.test("Việt") -> false

回复收藏 0 原文

花想c 2024-10-02 01:28:44

您可以使用unicode字符， https://vietunicode.sourceforge.net/charset/

return value.replace(/[^A-Za-z\s\u00C0-\u1EF9]/g, "");

you can use unicode character, https://vietunicode.sourceforge.net/charset/

return value.replace(/[^A-Za-z\s\u00C0-\u1EF9]/g, "");

回复收藏 0 原文

白龙吟 2024-10-02 01:28:44

我按序列 A_Z、六声调、大写和小写重新排序特殊越南字符：

ÁÀẢÃẠáàảãạÂẤẦẨẪẬâấầẩẫậĂẮẰẲẴẶăắằẳẵặĐđÉÈẺẼẸéèẻẽẹÊẾỀỂỄỆêếềểễệÓÒỎÕỌóòỏõọÔỐỒỔỖỘôốồổỗộƠỚỜỞỠỢơớờởỡợÍÌỈĨỊíìỉĩịÚÙỦŨỤúùủũụƯỨỪỬỮỰưứừửữựÝỲỶỸỴýỳỷỹỵ

以及正则表达式：

/[^a-z0-9A-Z_ÀÁÂÃÈÉÊẾÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêếìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỂưăạảấầẩẫậắằẳẵặẹẻẽềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u

I re-order special Vietnamese Characters by sequence A_Z, six tones, uppercase, and lowercase:

ÁÀẢÃẠáàảãạÂẤẦẨẪẬâấầẩẫậĂẮẰẲẴẶăắằẳẵặĐđÉÈẺẼẸéèẻẽẹÊẾỀỂỄỆêếềểễệÓÒỎÕỌóòỏõọÔỐỒỔỖỘôốồổỗộƠỚỜỞỠỢơớờởỡợÍÌỈĨỊíìỉĩịÚÙỦŨỤúùủũụƯỨỪỬỮỰưứừửữựÝỲỶỸỴýỳỷỹỵ

And the regex:

/[^a-z0-9A-Z_ÀÁÂÃÈÉÊẾÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêếìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỂưăạảấầẩẫậắằẳẵặẹẻẽềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u

回复收藏 0 原文

烂人 2024-10-02 01:28:43

试试这个正则表达式：

/[^a-z0-9A-Z_ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễếệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u

u修饰符使PHP能够解释模式字符串为 UTF-8。

如果这不起作用，请尝试使用 Unicode 字符属性，例如 \p{L} 字母或转义序列 \x{1234} 用于描述单个 Unicode 字符或自定义字符范围：

/[^a-z0-9A-Z_\x{00C0}-\x{00FF}\x{1EA0}-\x{1EFF}]/u

Try this regular expression:

/[^a-z0-9A-Z_ÀÁÂÃÈÉÊÌÍÒÓÔÕÙÚĂĐĨŨƠàáâãèéêìíòóôõùúăđĩũơƯĂẠẢẤẦẨẪẬẮẰẲẴẶẸẺẼỀỀỂưăạảấầẩẫậắằẳẵặẹẻẽềềểỄỆỈỊỌỎỐỒỔỖỘỚỜỞỠỢỤỦỨỪễếệỉịọỏốồổỗộớờởỡợụủứừỬỮỰỲỴÝỶỸửữựỳỵỷỹ]/u

The u modifier makes PHP to interpret the pattern string as UTF-8.

If that doesn’t work, try using Unicode character properties like \p{L} for letters or the escape sequence \x{1234} for describing single Unicode characters or custom character ranges:

/[^a-z0-9A-Z_\x{00C0}-\x{00FF}\x{1EA0}-\x{1EFF}]/u

回复收藏 0 原文

何以笙箫默 2024-10-02 01:28:43

上述正则表达式缺少 ế，并且 ă 和 ề 重复。
正确的越南语字符列表：
- àáạảắằẳẵặấầẩẫậẹẻẽềếểễệềếểễệềếểễệềếểễệọỏọỏọỏốồổỗộơớờởỡợốồổỗộơớờởỡợốồổỗộơớờởỡợ了ạả了ạảẹẻẽẹẻẽẹẻẽẹẻẽềếểễệềếểễệềếểễệềếểễệềếểễệềếểễệọỏọỏọỏọỏọỏ

另外，请记住在使用正则表达式测试字符串之前以 NFC 形式规范化字符串 (string.normalize('NFC'))。请在此处了解更多信息。