正则表达式

Regular Expression,正则表达式，一种使用表达式的方式对字符串进行匹配的语法规则.

正则的优点:速度快，效率高，准确性高
正则的缺点:新手上手难度有点儿高。

在线测试正则表达式https://tool.oschina.net/regex/

元字符:具有固定含义的特殊符号

常用元字符:

.			匹配除换行符以外的任意字符
\w			匹配字母或数字或下划线
\s			匹配任意的空白符
\d			匹配数字
\n			匹配一个换行符
\t			匹配一个制表符
	
^			匹配字符串的开始
$			匹配字符串的结尾

\W			匹配非字母或数字或下划线
\D			匹配非数字
\S			匹配非空白符
a|b			匹配字符a或字符b
()			匹配括号内的表达式， 也表示一个组
[...]			匹配字符组中的字符  [0-9]表示匹配0到9
[^...]			匹配除了字符组中字符的所有字符

量词:控制前面的元字符出现的次数

*			重复零次或更多次
+			重复一次或更多次
?			重复零次或一次
{n}			重复n次
{n,}			重复n次或更多次
{n,m}			重复n到m次

贪婪匹配和惰性匹配

.*			贪婪匹配(尽量多的匹配字符)
.*?			惰性匹配(尽量少的匹配字符)

案例:

str:玩儿吃鸡游戏, 晚上一起上游戏, 干嘛呢? 打游戏啊
reg:玩儿.*?游戏
此时匹配的是: 玩儿吃鸡游戏

reg:玩儿.*游戏
此时匹配的是:玩儿吃鸡游戏，晚上一起上游戏，干嘛呢打游戏


str: <div>胡辣汤</div>
reg: <.*>
结果: <div>胡辣汤</div>

str: <div>胡辣汤</div>
reg: <.*?>
结果:
	<div> 
	</div>

str: <div>胡辣汤</div> <span>饭团</ span>
reg: <div>.*?</div>
结果:
	<div>胡辣汤</div>

匹配一串文字：(注意段落中可能用到的字符)

[\u4e00-\u9fa5,. ()0-9\'"!?%，。？！～、；％—…·（）‘’“”«»]+

匹配选项	描述
re.I	忽略大小写
re.L	表示特殊字符集\w \W \b \B \s \S和不区分大小写的匹配依赖于当前环境
re.M	多行模式
re.S	使'.'能够匹配包括换行符在内的所有字符
re.U	根据Unicode字符集解析字符
re.A	根据ASCII码解析字符
re.X	为了增加可读性，允许使用更加灵活的格式书写正则表达式（可以是多行，可加入注释，忽略空白符）