正则表达式,又称规则表达式。(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。
1.1 正则表达式匹配步骤
虽然在Python 中使用正则表达式有几个步骤,但每一步都相当简单。
# 用import re 导入正则表达式模块
import re
# 创建了一个Regex对象
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# 匹配字符串
mo = phoneNumRegex.search('My number is 415-555-4242.')
# group()方法返回实际匹配的字符串
print('phone num found is: ' mo.group())
phone num found is: 415-555-4242
1.2 正则表达式匹配更多模式
1.3 findall()方法
search()将返回一个Match对象,包含被查找字符串中的“第一次”匹配的文本,而findall()方法将返回一组字符串,包含被查找字符串中的所有匹配。
import re
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
# search返回第一次匹配
mo = phoneNumRegex.search('Cell: 415-555-9999 Work: 212-555-0000')
mo.group()
'415-555-9999'
# findall返回所有结果
phoneNumRegex = re.compile(r'\d\d\d-\d\d\d-\d\d\d\d')
phoneNumRegex.findall('Cell: 415-555-9999 Work: 212-555-0000')
['415-555-9999', '212-555-0000']
1.4 字符分类
缩写字符分类 | 表示 |
\d | 0 到9 的任何数字 |
\D | 除0 到9 的数字以外的任何字符 |
\w | 任何字母、数字或下划线字符(可以认为是匹配“单词”字符) |
\W | 除字母、数字和下划线以外的任何字符 |
\s | 空格、制表符或换行符(可以认为是匹配“空白”字符) |
\S | 除空格、制表符和换行符以外的任何字符 |
1.5 建立自己的字符分类
import re
vowelRegex = re.compile(r'[aeiouAEIOU]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')
['o', 'o', 'o', 'e', 'a', 'a', 'o', 'o', 'A', 'O', 'O']
import re
vowelRegex = re.compile(r'[a-zA-Z0-9]')
vowelRegex.findall('RoboCop eats baby food. BABY FOOD.')
['R',
'o',
'b',
'o',
'C',
'o',
'p',
'e',
'a',
't',
's',
'b',
'a',
'b',
'y',
'f',
'o',
'o',
'd',
'B',
'A',
'B',
'Y',
'F',
'O',
'O',
'D']
import re
consonantRegex = re.compile(r'[^aeiouAEIOU]')
consonantRegex.findall('RoboCop eats baby food. BABY FOOD.')
['R',
'b',
'C',
'p',
' ',
't',
's',
' ',
'b',
'b',
'y',
' ',
'f',
'd',
'.',
' ',
'B',
'B',
'Y',
' ',
'F',
'D',
'.']
1.6 通配字符
1.7 正则表达式符号总结
1.8 sub() 替换字符串
Regex对象的sub()方法需要传入两个参数。第一个参数是一个字符串,用于取代发现的匹配。第二个参数是一个字符串,即正则表达式。sub()方法返回替换完成后的字符串。
import re
namesRegex = re.compile(r'Agent \w ')
namesRegex.sub('CENSORED', 'Agent Alice gave the secret documents to Agent Bob.')
'CENSORED gave the secret documents to CENSORED.'
1.9 compile的第二个参数
功能:在剪贴板的文本中查找电话号码和E-mail 地址,按一下Ctrl-A 选择所有文本,按下Ctrl-C 将它复制到剪贴板,然后运行程序。找到电话号码和E-mail地址,替换掉剪贴板中的文本。
文本例子地址:http://www.nostarch.com/contactus
主要步骤:
第1步:为电话号码创建一个正则表达式
第2步:为E-mail 地址创建一个正则表达式
第3步:在剪贴板文本中找到所有匹配
第4步:所有匹配连接成一个字符串,复制到剪贴板
#! python3
# Finds phone numbers and email addresses on the clipboard.
# text:
'''
Contact Us
No Starch Press, Inc.
245 8th Street
San Francisco, CA 94103 USA
Phone: 800.420.7240 or 1 415.863.9900 (9 a.m. to 5 p.m., M-F, PST)
Fax: 1 415.863.9950
Reach Us by Email
General inquiries: info@nostarch.com
Media requests: media@nostarch.com
Academic requests: academic@nostarch.com (Please see this page for academic review requests)
Help with your order: info@nostarch.com
Reach Us on Social Media
Twitter
Facebook
Instagram
Pinterest
100.420.7240 x 123
'''
import pyperclip
import re
# 为电话号码创建一个正则表达式
# 电话号码 phone
phoneRegex = re.compile(r'''(
(\d{3}|\(\d{3}\))? # area code
(\s|-|\.)? # separator
(\d{3}) # first 3 digits
(\s|-|\.) # separator
(\d{4}) # last 4 digits
(\s*(ext|x|ext.)\s*(\d{2,5}))? # extension
)''', re.VERBOSE)
# 为E-mail 地址创建一个正则表达式
# Create email regex. 邮件
emailRegex = re.compile(r'''(
[a-zA-Z0-9._% -] # username
@ # @ symbol
[a-zA-Z0-9.-] # domain name
(\.[a-zA-Z]{2,4}) # dot-something
)''', re.VERBOSE)
# TODO: Create email regex.
# TODO: Find matches in clipboard text.
# TODO: Copy results to the clipboard.
# Find matches in clipboard text.
# 获得剪切板文件
text = str(pyperclip.paste())
matches = []
a = phoneRegex.findall(text)
for groups in phoneRegex.findall(text):
# 读取数字
phoneNum = '-'.join([groups[1], groups[3], groups[5]])
# 如果没有分号
if groups[8] != '':
phoneNum = ' x' groups[8]
matches.append(phoneNum)
for groups in emailRegex.findall(text):
matches.append(groups[0])
# Copy results to the clipboard.
if len(matches) > 0:
pyperclip.copy('\n'.join(matches))
print('Copied to clipboard:')
print('\n'.join(matches))
else:
print('No phone numbers or email addresses found.')
Copied to clipboard:
800-420-7240
415-863-9900
415-863-9950
100-420-7240 x123
info@nostarch.com
media@nostarch.com
academic@nostarch.com
info@nostarch.com
2.2 强口令检测
写一个函数,它使用正则表达式,确保传入的口令字符串是强口令。强口令的定义是:长度不少于8 个字符,同时包含大写和小写字符,至少有一位数字。
import re
import pyperclip
def detect(text):
if len(text)<8:
return False
test1=re.compile(r'([0-9])')
result1=test1.search(text)
if result1==None:
return False
test2=re.compile(r'([A-Z])')
result2=test2.search(text)
if result2==None:
return False
test3=re.compile(r'([a-z])')
result3=test3.search(text)
if result3==None:
return False
return True
text='uusssZmi0546'
status=detect(text)
print(status)
True
2.3 strip()的正则表达式版本
写一个函数,它接受一个字符串,做的事情和strip()字符串方法一样。如果只传入了要去除的字符串,没有其他参数,那么就从该字符串首尾去除空白字符。否
则,函数第二个参数指定的字符将从该字符串中去除。
import re
def my_strip(text,param=''):
if len(param)<1:
param='\s'
params_begin= r'^[{}]*'.format(param)
params_end= r'[{}]*$'.format(param)
my_begin=re.compile(params_begin,re.I)
my_end=re.compile(params_end,re.I)
my=my_begin.sub('', text)
text=my_end.sub('', my)
return text
text='SpamSpamBaconSpamEggsSpamSpam'
param='SPAM'
text=my_strip(text,'SPAM')
print(text)
BaconSpamEgg
Copyright © 2024 妖气游戏网 www.17u1u.com All Rights Reserved