在Python中使用正则表达式
Python语言通过标准库中的 re模块 (
import re
)支持正则表达式。
使用 match 方法匹配字符串
匹配字符串也就是设定一个文本模式,然后判断另外一个字符串是否符合这个文本模式。
import re
第1个参数表示文本模式,第2个参数表示待匹配的字符串
m = re.match('hello', 'hello world') if m is not None: print(m.group()) # hello
使用search方法在一个字符串中查找模式
import re
# 第1个参数表示文本模式,第2个参数表示待查找的字符串
m = re.search('abc','xabcy')
print(m.group()) # abc
匹配多个字符串
如果想要搜索多个字符串,最简单的方法是在文本模式字符串中使用 **择一匹配符号(|)**。择一匹配符号只要满足任何一个,就算匹配成功。
import re s = 'bike|car|truck' m = re.match(s, 'bike') print(m.group()) # bike m = re.match(s, 'truck') print(m.group()) # truck
匹配任何单个字符(.)
点(.),这个符号可以匹配任意一个单个字符。
m = re.match('bin.', 'bind') # 匹配成功
其中
.
可以表示任意一个字符,例如:"bind"、"binx"、"bin4"都可以和文本模式匹配成功。
使用字符集匹配([])
- 如果待匹配的字符串中,某些字符可以有多个选择,就需要使用字符集([])。如
[abc]
表示在a、b、c三个字符中取其中任何一个。
重复、可选和特殊字符(*、+、?、\w、\d、{N})
*
:表示字符串出现0到n次,'a*'
表示字符a出现0到n次+
:表示字符串出现1到n次,'a+'
表示字符a出现1到n次?
:表示可选符号,a?
表示a可有可无\w
:表示任意一个字母或数字\d
:表示任意一个数字{N}
:表示前面修饰的部分重复N次,(abc){3}
表示字符串'abc'重复3次
分组
如果一个模式字符串中有用一对 圆括号 括起来,那么这部分就会作为一组。
m = re.match('(\d\d\d)-(\d\d)', '123-45') # 匹配
匹配字符串的起始和结尾以及单词边界(^、$、\b)
^
:表示匹配字符串的开始,如:^the
,表示以the
开始$
:表示匹配字符串的结束,如:the$
,表示以the
结束\b
:表示单词的边界,如:\bthis
,则what's this?
匹配,what's sthiss?
不匹配
使用findall和finditer查找每一次出现的位置
findall函数用于查询字符串中某个正则表达式模式全部的非重复出现情况,如果搜索到结果,则返回包含结果的列表,否则返回一个空列表
import re result = re.findall('bike', 'This is a bike. This is my bike.') print(result) # ['bike', 'bike']
finditer与findall函数类似,区别是findall会返回一个列表,而finditer函数返回一个迭代器
用sub和subn搜索与替换
这两个函数都是将字符串中所有匹配正则表达式的部分替换成其他字符串。
sub
函数 返回替换后的结果,subn
函数 返回一个元组,元组的第1个元素是替换后的结果,第2个元素是替换的总数 。import re
sub函数第1个参数是正表达式,第2个参数是要替换的字符串,第3个参数是被替换的字符串
result = re.sub('Bill', 'Mike', 'Bill is my son') print(result) # Mike is my son
result = re.subn('Bill', 'Mike', 'Bill is my son') print(result) # ('Mike is my son', 1)
使用split分隔字符串
split函数用于根据正则表达式分隔字符串
import re result = re.split(';', 'Bill;Mike;John') print(result) # ['Bill', 'Mike', 'John']
result = re.split('[a-z]{3}-[0-9]{2}', 'testabc-4312productxyz-43abill') print(result) # ['test', '12product', 'abill']
一些常用的正则表达式
- Email:'[0-9a-zA-z]+@[0-9a-zA-z]+.[0-9a-zA-z]{2,3}'
- IP地址:'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}'
- Web地址:'https?:/{2}\w.+'