正则匹配汉字及中文标点符号

时间:2022-09-28 我是段段人气:0

问题：

在写项目时遇到需要匹配字符串中所有的汉字并且包括简单的中文标点符号

比如：

匹配下面这个完成的字符串

let str = '上传文件，你好呀，我很好';

网上能够查到很多匹配汉字的正则

let reg = /[\u4e00-\u9fa5]+/g;

console.log(str.match(reg));
// 结果如下
['上传文件', '你好呀', '我很好']

从结果可以看出上面写的正则没有匹配到标点符号，，所以将完整的字符串（str）分隔开了

又从网上查找匹配中文标点的正则

// 匹配中文标点的正则
\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3010|\u3011|\u007e

// 可以匹配以下中文标点符号（顺序是一一对应的）
// `。 ？ ！ ， 、 ； ： “ ” ‘ ' （ ） 《 》 【 】 ~`

Ps：

如果上面没有想要的标点符号，可以上网查找将中文符号转换成Unicode编码添加在表达式中即可

将刚才编写的正则表达式进行下简单的修改

let reg = /[(\u4e00-\u9fa5)(\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3010|\u3011|\u007e)]+/g

console.log(str.match(reg));
// 打印结果
['上传文件，你好呀，我很好']

可以看到这次结果是我们想要的形式，整个字符串都匹配到了~

补充：

Unicode 编码并不只是为某个字符简单定义了一个编码，而且还将其进行了归类。

\pP 其中的小写 p 是 property 的意思，表示 Unicode 属性，用于 Unicode 正表达式的前缀。

大写 P 表示 Unicode 字符集七个字符属性之一：标点字符。

其他六个是

L：字母；
M：标记符号（一般不会单独出现）；
Z：分隔符（比如空格、换行等）；
S：符号（比如数学符号、货币符号等）；
N：数字（比如阿拉伯数字、罗马数字等）；
C：其他字符

总结

加载全部内容