python正则表达式

一、PyThon正则表达式
1、正则表达式
使用特殊字符或者符号定义的一组规则,用于验证用户的数据是否符合定义的规则。这样的一套使用特殊符号和字符定义的规则称为正则表达式。

2、在python中使用正则需要引入re模块
Import re

3、re模块常用的方法
(1) match匹配
从起始位置开始匹配,起始位置存在匹配的字符信息,则返回字符信息的位置

示例:
import re

match从起始位置匹配字符信息,起始位置匹配成功,返回匹配成功的位置信息

print(re.match("www","www.baidu.com").span())
print(re.match("com","www.baidu.com"))

(2) seacher匹配
对整个匹配的字符串信息进行查询,如果字符串中存在要匹配的信息,则返回匹配成功的字符串位置。

示例如下:
import re

match从起始位置匹配字符信息,起始位置匹配成功,返回匹配成功的位置信息

print(re.search("www","www.baidu.com").span())
print(re.search("com","www.baidu.com").span())

结果如下:
(0, 3)
(10, 13)

二、python爬虫
1、http请求的方式
(1) post方式
对请求的信息进行隐藏,不会再地址栏呈现要提交给服务器的信息。对提交给服务器的信息没有长度限制。(实际限制为20M)

(2) GET方法
将请求的信息显示在地址栏中,属于非隐藏的请求方式。最大能够请求的字符长度为255字节。

2、URL定义
称为统一资源定位。实际就是定位网站的资源位置。
例如:
http://www.sohu.com/index.html

3、查看网页信息使用的调试工具
(1) 使用google浏览器自带的调试工具,按F12键打开

(2) 使用fiddler工具进行wen调试,获取服务器返回的页面信息

三、使用urllib获取网页信息
1、urllib和urllib2属于python的爬虫组件之一
2、使用urllib2获取网站的网页资源信息
(1)导入urllib2模块
Import urllib2
(2)打开网站资源并返回响应的对象response对象
response=urllib2.urlopen(“http://www.jd.com”)
(3) 使用response对象获取网页信息
Htmltxt=response.read()
(4) 示例如下
import urllib.request
response=urllib.request.urlopen("http://www.baidu.com")
htmltxt=response.read()
print(htmltxt)

标签

评论

this is is footer