Python3正则表达式

Stella981
• 阅读 950

在Python中使用正则表达式

Python语言通过标准库中的 re模块 (import re)支持正则表达式。

使用 match 方法匹配字符串

  • 匹配字符串也就是设定一个文本模式,然后判断另外一个字符串是否符合这个文本模式。

    import re

    第1个参数表示文本模式,第2个参数表示待匹配的字符串

    m = re.match('hello', 'hello world') if m is not None: print(m.group()) # hello

使用search方法在一个字符串中查找模式

import re
# 第1个参数表示文本模式,第2个参数表示待查找的字符串
m = re.search('abc','xabcy')
print(m.group()) # abc

匹配多个字符串

  • 如果想要搜索多个字符串,最简单的方法是在文本模式字符串中使用 **择一匹配符号(|)**。择一匹配符号只要满足任何一个,就算匹配成功。

    import re s = 'bike|car|truck' m = re.match(s, 'bike') print(m.group()) # bike m = re.match(s, 'truck') print(m.group()) # truck

匹配任何单个字符(.)

  • 点(.),这个符号可以匹配任意一个单个字符。

    m = re.match('bin.', 'bind') # 匹配成功

其中 . 可以表示任意一个字符,例如:"bind"、"binx"、"bin4"都可以和文本模式匹配成功。

使用字符集匹配([])

  • 如果待匹配的字符串中,某些字符可以有多个选择,就需要使用字符集([])。如 [abc] 表示在a、b、c三个字符中取其中任何一个。

重复、可选和特殊字符(*、+、?、\w、\d、{N})

  • *:表示字符串出现0到n次,'a*' 表示字符a出现0到n次
  • +:表示字符串出现1到n次,'a+' 表示字符a出现1到n次
  • ?:表示可选符号,a? 表示a可有可无
  • \w:表示任意一个字母或数字
  • \d:表示任意一个数字
  • {N}:表示前面修饰的部分重复N次,(abc){3} 表示字符串'abc'重复3次

分组

  • 如果一个模式字符串中有用一对 圆括号 括起来,那么这部分就会作为一组。

    m = re.match('(\d\d\d)-(\d\d)', '123-45') # 匹配

匹配字符串的起始和结尾以及单词边界(^、$、\b)

  • ^:表示匹配字符串的开始,如:^the,表示以 the 开始
  • $:表示匹配字符串的结束,如:the$,表示以 the 结束
  • \b:表示单词的边界,如:\bthis,则 what's this? 匹配,what's sthiss? 不匹配

使用findall和finditer查找每一次出现的位置

  • findall函数用于查询字符串中某个正则表达式模式全部的非重复出现情况,如果搜索到结果,则返回包含结果的列表,否则返回一个空列表

    import re result = re.findall('bike', 'This is a bike. This is my bike.') print(result) # ['bike', 'bike']

  • finditer与findall函数类似,区别是findall会返回一个列表,而finditer函数返回一个迭代器

用sub和subn搜索与替换

  • 这两个函数都是将字符串中所有匹配正则表达式的部分替换成其他字符串。sub 函数 返回替换后的结果subn 函数 返回一个元组,元组的第1个元素是替换后的结果,第2个元素是替换的总数

    import re

    sub函数第1个参数是正表达式,第2个参数是要替换的字符串,第3个参数是被替换的字符串

    result = re.sub('Bill', 'Mike', 'Bill is my son') print(result) # Mike is my son

    result = re.subn('Bill', 'Mike', 'Bill is my son') print(result) # ('Mike is my son', 1)

使用split分隔字符串

  • split函数用于根据正则表达式分隔字符串

    import re result = re.split(';', 'Bill;Mike;John') print(result) # ['Bill', 'Mike', 'John']

    result = re.split('[a-z]{3}-[0-9]{2}', 'testabc-4312productxyz-43abill') print(result) # ['test', '12product', 'abill']

一些常用的正则表达式

  • Email:'[0-9a-zA-z]+@[0-9a-zA-z]+.[0-9a-zA-z]{2,3}'
  • IP地址:'\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}'
  • Web地址:'https?:/{2}\w.+'
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
半臻 半臻
3年前
Python基础11——正则表达式
19正则表达式19.1正则基础正则表达式:字符串处理工具应用场景1.html查询2.验证字符串是否符合规则re模块match方法python通过正则表达式对字符串进行匹配importre使用match方法进行匹配操作re.match()从字符串的开始位置进行匹配,匹配成功,返回match对象。匹配失败,返回Noneresre
Wesley13 Wesley13
3年前
java将前端的json数组字符串转换为列表
记录下在前端通过ajax提交了一个json数组的字符串,在后端如何转换为列表。前端数据转化与请求varcontracts{id:'1',name:'yanggb合同1'},{id:'2',name:'yanggb合同2'},{id:'3',name:'yang
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
5个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这