张登友,张登友的博客,张登友的网站——
正则表达式
例如,您只想查找文件名列表中,扩展名是 pdf 的文件,那您只需跟着输入 ^\w+.pdf$ 就可以找到。
/^\w+.pdf$/gm
基本匹配
直接输入想要查找的字符或单词
/test/gm
.
匹配任何字符,包括特殊字符和空格。
/./g
字符集 [abc]
如果一个词中的字符可以是各种字符,我们就将所有的可选字符写进中括号 [] 中
/[abc]/g
否定字符集 [^abc]
匹配除了包含a,b,c的所有词
/[^abc]/g
字母范围 [a-z]
查找指定范围的字母,我们需要将起始字母和结束字母写进 [] 中,中间用连字符 - 分隔
/[a-z]/g
数字范围 [0-9]
和字母同理
/[0-9]/g
插入符 ^: 匹配字符串的开始
我们用 [0-9] 查找数字,若仅查找行首的数字,请在表达式前面加上 ^。
表达式: /^[0-9]/g
匹配文本: 仅查找行首的数字
美元符号 $: 匹配字符串的结束
让我们在 html 的后面添加 $,来查找仅在行末出现的 html。
表达式: /pdf$/g
匹配文本: 匹配以pdf结尾的
单词字符 \w: 字母、数字和下划线
表达式 \w 用于查找字母、数字和下划线。让我们用表达式 \w 来查找文本中的单词字符。
表达式: /\w/g
匹配文本: abc123_
非单词字符 \W
\W 匹配除字母、数字和下划线之外的字符。
表达式: /\W/g
匹配文本: 空格 . : ! ?
数字字符 \d
\d 仅用来匹配数字。
表达式: /\d/g
匹配文本: 123456
非数字字符 \D
\D 匹配除数字之外的字符。
表达式: /\D/g
匹配文本: abcABC . ! ? : _
空白符 \s
\s 仅匹配空白字符。
表达式: /\s/g
匹配文本: 空白字符
非空白符 \S
\S 匹配除空白符之外的字符。
表达式: /\S/g
匹配文本: abcABC123.?!:
重复
一些特殊字符用来指定一个字符在文本中重复的次数。它们分别是加号 +
、星号 *
和问号 ?
。
星号 *
我们在字符后面加上 *,表示一个字符完全不匹配或可以匹配多次。表示字母 e 在下方文本中不出现,只出现 1 次或者并排出现多次。
表达式: /be*r/g
匹配文本: br, ber, beer
加号 +
为了表示一个字符可以出现一次或多次,我们将 + 放在它后面。表示 e 在下方文本中出现一次或多次。
表达式: /be+r/g
匹配文本: ber, beer
问号 ?
为了表示一个字符是可选的,我们在它后面加一个 ?。例如,表示下方文本中的字母 u 是可选的。
表达式: /colou?r/g
匹配文本: color, colour
大括号
- 为了表示一个字符出现的确切次数,我们在该字符的末尾,将它出现的次数写进大括号 {} 中,如 {n}。例如,表示下方文本中的字母 e 只能出现 2 次。
表达式: /be{2}r/g
匹配文本: beer
- 为了表示一个字符至少出现多少次,我们在该字符的末尾,将它至少应出现的次数写进大括号 {} 中,并在数字后面加上逗号
,
,如 {n, }。例如,表示下方文本中的字母 e 至少出现 2 次。
表达式: /be{2,}r/g
匹配文本: beer, beeer, beeeeer
- 为了表示一些字符出现的次数在某个数字范围内,我们在该字符的末尾,将它至少和至多出现的次数写进大括号 {} 中,中间用逗号 , 分隔,如 {x,y}。例如,匹配下方文本中,字母 e 出现 1 至 3 次的单词。
表达式: /be{1,3}r/g
匹配文本: ber, beer, beeer
组
括号 ( ): 分组
我们可以对一个表达式进行分组,并用这些分组来引用或执行一些规则。为了给表达式分组,我们需要将文本包裹在 () 中。现在,请尝试为下方文本中的 haa 构造分组。
表达式: /(haa)/g
匹配下划线文本: ha-ha, haa-haa
引用组
单词 ha 和 haa 分组如下。第一组用 \1 来避免重复书写。这里的 1 表示分组的顺序。请在表达式的末尾键入 \2 以引用第二组。
表达式: /(ha)-\1, (haa)-\2/g
匹配文本: ha-ha haa-haa
括号 (?: ): 非捕获分组
您可以对表达式进行分组,并确保它不被引用捕获。例如,下面有两个分组,但我们用 \1 引用的第一个组实际上是指向第二个组,因为第一个是未被捕获的分组。
表达式: /(?:ha)-ha, (haa)-\1/g
匹配文本: ha-ha haa-haa
竖线 |
竖线允许一个表达式包含多个不同的分支。所有分支用 | 分隔。和在字符层面上运作的字符集 [abc] 不同,分支在表达式层面上运作。例如,下面的表达式同时匹配 cat 和 Cat。
表达式: /(C|c)at|rat/g
匹配文本: cat, Cat, rat
转义字符 \
在书写正则表达式时,我们会用到 { } [ ] / \ + * . $^ | ? 这些特殊字符 。为了匹配这些特殊字符本身,我们需要通过 \ 将它们转义。例如,要匹配文本中的 . 和 *,我们需要在它们前面添加一个 \。
表达式:
/(*|\.)/g
匹配文本: (*) Asteriks. //此处匹配了*号和.号
零宽断言
如果我们希望正在写的词语出现在另一个词语之前或之后,我们需要使用「零宽断言」。
正向先行断言: (?=)
例如,我们要匹配文本中的小时值。为了只匹配后面有 PM 的数值,我们需要在表达式后面使用正向先行断言 (?=),并在括号内的 = 后面添加 PM。
表达式:
/\d+(?=PM)/g
匹配文本: Date: 4 Aug 3 PM
负向先行断言: (?!)
例如,我们要在文本中匹配除小时值以外的数字。我们需要在表达式后面使用负向先行断言 (?!),并在括号内的 ! 后面添加 PM,从而只匹配没有 PM 的数值。
表达式:
/\d+(?!PM)/g
匹配文本: Date: 4 Aug 3 PM
正向后行断言: (?<=)
例如,我们要匹配文本中的金额数。为了只匹配前面带有 $ 的数字。我们要在表达式前面使用正向后行断言 (?<=),并在括号内的 = 后面添加 $。
表达式:
/\d+(?<=\$)/g
匹配下划线文本: Product Code: 1064 Price: $5
负向后行断言: (?<!)
例如,我们要在文本中匹配除价格外的数字。为了只匹配前面没有 $ 的数字,我们要在表达式前用负向后行断言 (?<!),并在括号内的 ! 后面添加 $。
表达式:
/\d+(?<!\$)/g
匹配下划线文本: Product Code: 1064 Price: $5
标志
标志改变表达式的输出。这就是标志也称为 修饰符 的原因。标志决定表达式是否将文本视作单独的行处理,是否区分大小写,或者是否查找所有匹配项。
全局标志(g , global)
全局标志使表达式选中所有匹配项,如果不启用全局标志,那么表达式只会匹配第一个匹配项。现在,请启用全局标志,以便匹配所有匹配项。
表达式:
/\w+\.com/g
全局匹配下划线文本: domain.com, test.com, site.com
多行标志(m, multiline)
正则表达式将所有文本视作一行。但如果我们使用了多行标志,它就会单独处理每一行。
表达式:
/\w+\.com/gm
全局匹配下划线文本:
domain.comtest.com
site.com
忽略大小写标志(i, case insensitive)
为了使我们编写的表达式不再大小写敏感,我们必须启用 不区分大小写 标志。
表达式:
/\w+\.com$/gmi
全局匹配下划线文本:DOMAIN.COM
TEST.COM
SITE.COM
贪婪匹配
正则表达式默认执行贪婪匹配。这意味着匹配内容会尽可能长。请看下面的示例,它匹配任何以 r 结尾的字符串,以及前面带有该字符串的文本,但它不会在第一个 r处停止匹配。
表达式:
/.*r/
匹配下划线文本: ber, beer, beeer, beeeer
懒惰匹配
与贪婪匹配不同,懒惰匹配在第一次匹配时停止。下面的例子中,在 * 之后添加 ?,将查找以 r 结尾且前面带有任意字符的第一个匹配项。这意味着本次匹配将会在第一个字母 r 处停止。
表达式:
/.*?r/
匹配下划线文本: ber, beer, beeer, beeeer
常用正则表达式
一、校验数字的表达式
数字:
^[0-9]*$
n位的数字:
^\d{n}$
至少n位的数字:
^\d{n,}$
m-n位的数字:
^\d{m,n}$
零和非零开头的数字:
^(0|[1-9][0-9]*)$
非零开头的最多带两位小数的数字:
^([1-9][0-9]*)+(.[0-9]{1,2})?$
带1-2位小数的正数或负数:
^(\-)?\d+(\.\d{1,2})?$
正数、负数、和小数:
^(\-|\+)?\d+(\.\d+)?$
有两位小数的正实数:
^[0-9]+(.[0-9]{2})?$
有1~3位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$
非零的正整数:
^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
非零的负整数:
^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
非负整数:
^\d+$ 或 ^[1-9]\d*|0$
非正整数:
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
非负浮点数:
^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
非正浮点数:
^((-\d+(\.\d+)?)|(0+(\.0+)?))$
或^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
正浮点数:
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$
或^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
负浮点数:
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$
或^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
浮点数:
^(-?\d+)(\.\d+)?$
或^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
二、校验字符的表达式
汉字:
^[\u4e00-\u9fa5]{0,}$
英文和数字:
^[A-Za-z0-9]+$
或^[A-Za-z0-9]{4,40}$
长度为3-20的所有字符:
^.{3,20}$
由26个英文字母组成的字符串:
^[A-Za-z]+$
由26个大写英文字母组成的字符串:
^[A-Z]+$
由26个小写英文字母组成的字符串:
^[a-z]+$
由数字和26个英文字母组成的字符串:
^[A-Za-z0-9]+$
由数字、26个英文字母或者下划线组成的字符串:
^\w+$ 或 ^\w{3,20}$
中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$
中文、英文、数字但不包括下划线等符号:
^[\u4E00-\u9FA5A-Za-z0-9]+$
或^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
可以输入含有^%&’,;=?$"等字符:
[^%&',;=?$\x22]+ 12
禁止输入含有的字符:`[^\x22]+`非打印的特殊字符匹配:
[\u0000-\u001F]
三、特殊需求表达式
Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
InternetURL:
[a-zA-z]+://[^\s]*
或^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
手机号码:
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
电话号码(“XXX-XXXXXXX”、”XXXX-XXXXXXXX”、”XXX-XXXXXXX”、”XXX-XXXXXXXX”、”XXXXXXX”和”XXXXXXXX):
^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
国内电话号码(0511-4405222、021-87888822):
\d{3}-\d{8}|\d{4}-\d{7}
身份证号(15位、18位数字):
^\d{15}|\d{18}$
短身份证号码(数字、字母x结尾):
^([0-9]){7,18}(x|X)?$
或^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):
^[a-zA-Z]\w{5,17}$
强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):
^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
日期格式:
^\d{4}-\d{1,2}-\d{1,2}
一年的12个月(01~09和1~12):
^(0?[1-9]|1[0-2])$
一个月的31天(01~09和1~31):
^((0?[1-9])|((1|2)[0-9])|30|31)$
钱的输入格式:
- 有四种钱的表示形式我们可以接受:”10000.00” 和 “10,000.00”, 和没有 “分” 的 “10000” 和 “10,000”:
^[1-9][0-9]*$
- 这表示任意一个不以0开头的数字,但是,这也意味着一个字符”0”不通过,所以我们采用下面的形式:
^(0|[1-9][0-9]*)$
- 一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:
^(0|-?[1-9][0-9]*)$
- 这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:
^[0-9]+(.[0-9]+)?$
- 必须说明的是,小数点后面至少应该有1位数,所以”10.”是不通过的,但是 “10” 和 “10.2” 是通过的:
^[0-9]+(.[0-9]{2})?$
- 这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:
^[0-9]+(.[0-9]{1,2})?$
- 这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:
^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
- 到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:
^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
- 这就是最终结果了,别忘了”+”可以用”*”替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
中文字符的正则表达式:
[\u4e00-\u9fa5]
双字节字符:
[^\x00-\xff]
(包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))空白行的正则表达式:
\n\s*\r
(可以用来删除空白行)HTML标记的正则表达式:
<(\S*?)[^>]*>.*?</\1>|<.*? />
(网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)首尾空白字符的正则表达式:
^\s*|\s*$
或(^\s*)|(\s*$)
(可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)腾讯QQ号:
[1-9][0-9]{4,}
(腾讯QQ号从10000开始)中国邮政编码:
[1-9]\d{5}(?!\d)
(中国邮政编码为6位数字)IP地址:
\d+\.\d+\.\d+\.\d+
(提取IP地址时有用)IP地址:
((?:(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d)\\.){3}(?:25[0-5]|2[0-4]\\d|[01]?\\d?\\d))