Python正则表达式保姆式教学，带你精通大名鼎鼎的正则！

恨在心底里

正则做为处置字符串的一个适用东西，正在Python中经常会用到，比如爬虫爬与数据经常用正则去检索字符串等等。正则表达式曾经内乱嵌正在Python中，经由过程导进re模块就能够利用，做为刚教Python的新脚年夜大都皆传闻”正则“那个术语。
今日去给各人分享一份闭于比力具体的Python正则表达式宝典，教会以后您将对正则表达式到达精晓的形态。

1、re模块

正在讲正则表达式之前，我们起首得明白那里用获得正则表达式。正则表达式是用正在findall()办法傍边，年夜大都的字符串检索皆能够经由过程findall()去完成。
1.导进re模块
正在利用正则表达式之前，需求导进re模块。

import re

复造代码

2.findall（）的语法：
导进了re模块以后就能够利用findall（）办法了，那末我们必需要分明findall（）的语法是怎样划定的。

findall(正则表达式，目的字符串)

复造代码

没有好看出findall（）的是由正则表达式战目的字符串构成，目的字符串便是您要检索的工具，那末怎样检索则是经由过程正则表达式去停止操纵，也便是我们今日的重面。
利用findall（）以后返回的成果是一个列表，列表中是契合正则请求的字符串

2、正则表达式

(一).字符串的婚配

1.一般字符
年夜大都的字母战字符皆能够停止本身婚配。

import re
a = "abc123+-*"
b = re.findall('abc',a)
print(b)

复造代码

输出成果：

['abc']

复造代码

2.元字符
元字符指的是. ^ $ ? + {} \ []之类的特别字符，经由过程它们我们能够对目的字符串停止本性化检索，返回我们要的成果。
那里我给各人介绍10个经常使用的元字符和它们的用法，那里我先给各人做1个简朴的汇总，便于影象，上面会挨个解说每个元字符的利用。

（1） []
[] 的利用方法次要有以下三种：

经常使用去指定一个字符散。

s = "a123456b"
rule = "a[0-9][1-6][1-6][1-6][1-6][1-6]b" #那里临时先用这类费事面的办法，前面有更简单的，不消敲那么多[1-6]
l = re.findall(rule,s)
print(l)

复造代码

输出成果为：

['a123456b']

复造代码

能够暗示一个范畴。

比方要正在字符串"abcabcaccaac"当选出abc元素：

s = "abcabcaccaac"
rule = "a[a,b,c]c" # rule = "a[a-z0-9][a-z0-9][a-z0-9][a-z0-9]c"
l = re.findall(rule, s)
print(l)

复造代码

输出成果为：

['abc', 'abc', 'acc', 'aac']

复造代码

[] 内乱的元字符没有起感化，只暗示一般字符。

比方要正在字符串“caabcabcaabc”当选出“caa”：

print(re.findall("caa[a，^]", "caa^bcabcaabc"))

复造代码

输出成果为：

['caa^']

复造代码

留意面：当正在[]的第一个地位时，暗示除a之外的皆停止婚配，比方把[]中的战a换一下地位：

print(re.findall("caa[^,a]", "caa^bcabcaabc"))

复造代码

输出：

['caa^', 'caab']

复造代码

（2）^
^ 凡是用去婚配止尾，比方：

print(re.findall("^abca", "abcabcabc"))

复造代码

输出成果：

['abca']

复造代码

(3) $
$ 凡是用去婚配止尾，比方：

print(re.findall("abc$", "accabcabc"))

复造代码

输出成果：

['abc']

复造代码

（4）\
反斜杠后背能够减差别的字符暗示差别的特别含义，常睹的有以下3种。

\d:婚配任何十进造数等价于[0-9]

print(re.findall("c\d\d\da", "abc123abc"))

复造代码

输出成果为：

['c123a']

复造代码

\能够转义成一般字符，比方：

print(re.findall("\^abc", "^abc^abc"))

复造代码

输出成果：

['^abc', '^abc']

复造代码

s

婚配任何的空白字符比方：

print(re.findall("\s\s", "a c"))

复造代码

输出成果：

[' ', ' ']

复造代码

\w

婚配任何字母数字战下划线，等价于[a-zA-Z0-9_]，比方：

print(re.findall("\w\w\w", "abc12_"))

复造代码

输出：

['abc', '12_']

复造代码

（5）{n}
{n}能够制止反复写，比如前里我们用\w时写了3次\w，而那里我们那需求用用上{n}就能够，n暗示婚配的次数，比方：

print(re.findall("\w{2}", "abc12_"))

复造代码

输出成果：

['ab', 'c1', '2_']

复造代码

（6）*
*暗示婚配整次或屡次（尽量的多来婚配），比方：

print(re.findall("010-\d*", "010-123456789"))

复造代码

输出：

['010-123456789']

复造代码

**（7） + **
+暗示婚配一次或屡次，比方

print(re.findall("010-\d+", "010-123456789"))

复造代码

输出：

['010-123456789']

复造代码

（8） .
.是个面，那里没有是很明显，它用去操纵除换止符之外的任何字符，比方：

print(re.findall(".", "010\n?!"))

复造代码

输出：

['0', '1', '0', '?', '!']

复造代码

(9) ？
？暗示婚配一次或整次

print(re.findall("010-\d?", "010-123456789"))

复造代码

输出：

['010-1']

复造代码

那里要留意一下贪婪形式战非贪婪形式。
贪婪形式：尽量多的来婚配数据，表示为\d后背减某个元字符，比方\d*：

print(re.findall("010-\d*", "010-123456789"))

复造代码

输出：

['010-123456789']

复造代码

非贪婪形式：尽量少的来婚配数据，表示为\d后背减？，比方\d?

print(re.findall("010-\d*?", "010-123456789"))

复造代码

输出为：

['010-']

复造代码

(10){m,n}
m,n指的是十进造数,暗示起码反复m次，最多反复n次，比方：

print(re.findall("010-\d{3,5}", "010-123456789"))

复造代码

输出：

['010-12345']

复造代码

减上？暗示尽量少的来婚配

print(re.findall("010-\d{3,5}?", "010-123456789"))

复造代码

输出：

['010-123']

复造代码

{m,n}另有其他的一些灵敏的写法，比如：

{1,} 相称于前里提过的 + 的成果
{0，1} 相称于前里提过的？的成果
{0，} 相称于前里提过的 * 的成果

闭于经常使用的元字符和利用办法便先到那里，我们再去看看正则的其他常识。

（两）正则的利用

1.编译正则
正在Python中，re模块可经由过程compile() 办法去编译正则，re.compile(正则表达式),比方：

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule) #返回一个工具
# print(rule_compile)
s_compile = rule_compile.findall(s)
print(s_compile) #挨印compile()返回的工具是甚么

复造代码

输出成果：

['010-123456789']

复造代码

2.正则工具的利用办法
正则工具的利用办法不单单是经由过程我们前里所介绍的 findall() 去利用，借能够经由过程其他的办法停止利用，成果是纷歧样的，那里我做个简朴的总结：
（1）findall()
找到re婚配的一切字符串，返回一个列表
（2）search()
扫描字符串，找到那个re婚配的地位（仅仅是第一个查到的）
（3）match()
决议re能否正在字符串刚开端的地位（婚配止尾）
便拿上里的 compile()编译正则以后返回的工具去做举例，我们那里不消 findall() ,用 match() 去看一下成果怎样：

s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule) # 返回一个工具
# print(rule_compile)
s_compile = rule_compile.match(s)
print(s_compile) # 挨印compile()返回的工具是甚么

复造代码

输出：

[/code] 能够看出成果是1个match 工具，开端下标地位为0~13，match为 010-123456789 。既然返回的是工具，那末接下去我们来说讲那个match 工具的一些操纵办法。
[align=center]

[/align]
[b]3.Match object 的操纵办法[/b]
那里先介绍一下办法，后背我再举例，Match工具常睹的利用办法有以下几个：
（1）group()
返回re婚配的字符串
（2）start()
返回婚配开端的地位
（3）end()
返回婚配完毕的地位
（4）span()
返回一个元组：（开端,完毕）的地位
举例：用span()去对search()返回的工具停止操纵：
[code]s = "010-123456789"
rule = "010-\d*"
rule_compile = re.compile(rule) # 返回一个工具
s_compile = rule_compile.match(s)
print(s_compile.span()) #用span()处置返回的工具

复造代码

成果为：

(0, 13)

复造代码

4.re模块的函数
re模块中除上里介绍的findall()函数以外，另有其他的函数，去做一个介绍：
（1）findall()
按照正则表达式返回婚配到的一切字符串，那个我便未几道了，前里皆是正在介绍它。
（2）sub(正则,新字符串,本字符串)
sub() 函数的功用是改换字符串，比方：

s = "abcabcacc" #本字符串
l = re.sub("abc","ddd",s) #经由过程sub()处置过的字符串
print(l)

复造代码

输出：

ddddddacc #把abc局部交换成ddd

复造代码

(3)subn(正则,新字符串,本字符串)
subn()的感化是改换字符串，并返回改换的次数

s = "abcabcacc" #本字符串
l = re.subn("abc","ddd",s) #经由过程sub()处置过的字符串
print(l)

复造代码

输出：

('ddddddacc', 2)

复造代码

（4）split()
split()朋分字符串，比方：

s = "abcabcacc"
l = re.split("b",s)
print(l)

复造代码

输出成果：

['a', 'ca', 'cacc']

复造代码

闭于正则，我便讲那么多了，正则险些是Python一切标的目的中是必不成少的一个根底，祝您的Python之旅教有所成！

免责声明：假如进犯了您的权益，请联络站少，我们会实时删除侵权内乱容，感谢协作！

Python正则表达式保姆式教学，带你精通大名鼎鼎的正则！

浏览过的版块