正则表达式多用于python语言写爬虫用
实例 | 描述 |
---|---|
[Pp]ython |
匹配 “Python” 或 “python”。 |
rub[ye] |
匹配 “ruby” 或 “rube”。 |
[abcdef] |
匹配中括号内的任意一个字母。 |
[0-9] |
匹配任何数字。类似于 [0123456789]。 |
[a-z] |
匹配任何小写字母。 |
[A-Z] |
匹配任何大写字母。 |
[a-zA-Z0-9] |
匹配任何字母及数字。 |
[^au] |
除了au字母以外的所有字符。 |
[^0-9] |
匹配除了数字外的字符。 |
实例 | 描述 |
---|---|
. |
匹配除 “\n” 之外的任何单个字符。要匹配包括 ‘\n’ 在内的任何字符,请使用象 ‘[.\n]’ 的模式。 |
? |
匹配一个字符零次或一次,另一个作用是非贪婪模式(惰性匹配) |
+ |
匹配1次或多次 |
* |
匹配0次或多次 |
\b |
匹配一个长度为0 的子串 |
\d |
匹配一个数字字符。等价于 [0-9]。 |
\D |
匹配一个非数字字符。等价于 0-9。 |
\s |
匹配任何空白字符,包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 |
\S |
匹配任何非空白字符。等价于 \f\n\r\t\v。 |
\w |
匹配包括下划线的任何单词字符。等价于’[A-Za-z0-9_]’。 |
\W |
匹配任何非单词字符。等价于 ‘A-Za-z0-9_‘。 |
\b |
匹配一个长度为0 的子串 |
实例 | 描述 |
---|---|
{N} | 在它之前的字符组出现N 次 |
{M,N} | {M,N} ,M 是下界而N 是上界 |
+ - | + 等价于{1,} ,* 等价于{0,} |
^ $ | 匹配以^开头,$结尾 |
实例(进阶) | 描述 | |
---|---|---|
() | 使用() 分组 |
|
\ | 还可以使用 或者(or )条件 |
|
?: | 不捕获数据,还能使用分组的功能 | |
\N | \1 表示的就是第一个分组,在这里第一个分组匹配的是 font |
|