欢迎来到泰安市某某高温材料教育中心

全国咨询热线：020-123456789

产品中心

推荐产品

新捷达油门顶栓卡子新桑塔纳专用限位器爱丽舍教练车免拆油门垫子

这是一辆有故事的汽车汽车贴纸英文车贴搞笑创意个性反光贴纸

通用汽车腰线贴改装贴纸车身贴纸汽车拉花全车贴个性小贴刮痕贴

联系我们

地址：联系地址联系地址联系地址

电话：020-123456789

传真：020-123456789

邮箱：admin@aa.com

新闻中心

首页 >汽车音响

urllib 包基本使用

来源：泰安市某某高温材料教育中心更新时间：2024-05-02 04:10:19

urllib 包基本使用

urllib 是包基本使一个 python 内置包，不需要额外安装即可使用，包基本使包里面包含了以下几个用来处理 url 的包基本使模块：

urllib.request，用来打开和读取 url，包基本使意思就是包基本使可以用它来模拟发送请求，就像在浏览器里输入网址然后敲击回车一样，包基本使获取网页响应内容。包基本使
urllib.error，包基本使用来处理 urllib.request 引起的包基本使异常，保证程序的包基本使正常执行。
urllib.parse，包基本使用来解析 url ，包基本使可以对 url 进行拆分、包基本使合并等。包基本使
urllib.robotparse ，包基本使用来解析 robots.txt 文件，判断网站是否能够进行爬取。

掌握以上四个模块，就能对网站进行简单的爬虫操作，下面我们逐个介绍。

urllib.request 模块

urllib.request 模块定义了以下几个函数。

urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)

该函数主要用于模拟网站请求，返回一个 HTTPResponse 类型的对象。

urlopen 函数中参数定义

url ，必选参数，是一个 str 字符串或者 Request 对象(后面会介绍) 。
data，bytes 类型的可选参数，如果传递的是字典型数据，可以用 urllib.parse.urlencode() 进行编码，返回 str 字符串，再将 str 转换成 bytes 字节流。如果传递 data 参数，urlopen 将使用 HTTP POST 方式请求，否则为 HTTP GET 请求。
timeout，可选参数，设置超时时间(未设置时使用全局默认超时时间)，以秒为单位计时，如果 urlopen 请求超出了设置时间还未得到响应则抛出异常。
cafile 和 capath，可选参数，在 HTTPS 连接请求时指定已认证的 CA 证书以及证书路径。
cadefault，一般可忽略该参数。
context，ssl.SSLContext 类型的可选参数，用来指定 SSL 设置。

urlopen 函数返回类型

urlopen 函数请求返回一个 HTTPResponse 响应上下文，或者请求异常抛出 URLError 协议错误，一般有如下属性：

geturl()，返回检索的 url，通常用于判定是否进行了重定向。
info()，返回网页的头信息。
getcode()，返回 HTTPResponse 响应的状态码。

urlopen 函数的应用实例

# 创建一个 HTTP GET 请求，输出响应上下文nfrom urllib.request import urlopennresponse = urlopen("http://www.python.org")nprint(response.read())

# 创建一个 HTTP POST 请求，输出响应上下文nfrom urllib.request import urlopennfrom urllib.parse import urlencodendata = { 'kw' : 'python'}ndata = bytes(urlencode(data), encoding = 'utf-8')nresponse = urlopen("https://fanyi.baidu.com/sug", data)nprint(response.read().decode('unicode_escape'))

# 创建一个 HTTP GET 请求，设置超时时间为0.1snimport urllib.requestnimport urllib.errorntry:n response=urllib.request.urlopen('http://www.python.org',timeout=0.1)n print(response.read()) nexcept urllib.error.URLError as e:n print(e.reason)

urllib.request.Request(url, data=None, headers={ }, origin_req_host=None, unverifiable=False, method=None)

该函数主要用于构造一个 url，返回一个 urllib.request.Request 对象。

Request 函数中参数定义

url ，必选参数，请求的 url 地址。
data ，bytes 类型的可选参数。
headers ，字典类型，有些 HTTP 服务器仅允许来自浏览器的请求，因此通过 headers 来模拟浏览器对 url 的访问，比如模拟谷歌浏览器时使用的 headers ：”Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36”。可以通过调用 add_header() 来添加 headers 信息。
origin_req_host，请求方的 host 名称或者 IP 地址。
unverifiable ，表示这个请求是否无法验证，默认为 False 。比如请求一张图片，如果没有权限获取图片那它的值就是 true 。
method ，是一个字符串，用来指示请求使用的方法，如：GET,POST,PUT 等，默认是 GET 请求。

Request 函数返回类型
与 urlopen 函数请求返回一样，一般返回一个 HTTPResponse 响应上下文。

Request 函数的应用实例

# 采用 HTTP GET 请求的方法模拟谷歌浏览器访问网站，输出响应上下文nfrom urllib import request,parsenurl = 'http://www.python.org'nheaders = { n 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'n}nreq = request.Request(url, headers = headers, method = 'GET')nresponse = request.urlopen(req) nprint(response.read())

# 采用 HTTP POST 请求的方法模拟谷歌浏览器访问网站，输出响应上下文nfrom urllib import requestnfrom urllib import parsenurl = 'https://fanyi.baidu.com/sug'ndata = { 'kw' : 'python'}ndata = bytes(parse.urlencode(data), encoding = 'utf-8')nheaders = { n 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'n}nreq = request.Request(url, data, headers, method = 'POST')nresponse = request.urlopen(req) nprint(response.read().decode('unicode_escape'))

# 创建一个 HTTP GET 请求，通过 add_header 添加一个 UserAgentnimport urllib.requestnimport randomnurl = 'http://www.python.org'nheaderUserAgentList = ['Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',n'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:69.0) Gecko/20100101 Firefox/69.0']nrandomHeaderUserAgent = random.choice(headerUserAgentList) # 随机选取一个 UserAgentnreq = urllib.request.Request(url) nreq.add_header('User-Agent', randomHeaderUserAgent) # 添加 UserAgentnresponse=urllib.request.urlopen(req)nprint(req.get_header('User-agent'))nprint(req.headers) # 打印请求的 header 信息

urllib.error 模块

urllib.error 模块定义了由 urllib.request 模块引发的异常，异常主要包含 URLError 和 HTTPError 。

urllib.error.URLError 异常

URLError 类继承自 OSError 类，是 error 异常模块的基类，由request模块产生的异常都可以通过捕获这个类来处理。URLError 只有一个属性 reason，即返回错误的原因。

应用实例：

# 在请求连接时候捕获网址错误引发的异常nfrom urllib import request, errorntry:n response = request.urlopen('https://www,baidu,com')nexcept error.URLError as e:n print(e.reason)

urllib.error.HTTPError 异常

HTTPError 是 URLError 的子类，专门用来处理 HTTP 请求错误，比如认证请求失败，包含以下三个属性：

code：返回 HTTP 响应的状态码，如404页面不存在等。
reason：返回错误的原因。
headers ：返回 HTTP 响应头信息。

应用举例：

# 返回401未授权错误nfrom urllib import request,errorntry:n response=request.urlopen('http://pythonscraping.com/pages/auth/login.php')n print(response.getcode())nexcept error.HTTPError as e:n print('1.错误原因：n%sn2.状态码：n%sn3.响应头信息：n%s' %(e.reason, e.code, e.headers))nexcept error.URLError as e:n print(e.reason)

urllib.parse 模块

urllib.parse 模块定义了一个处理 url 的标准接口，用来实现 url 字符串的抽取、合并以及链接转换。该模块主要用到的函数如下。

urllib.parse.urlparse(urlstring, scheme=’’, allow_fragments=True)

用于实现 url 字符串的识别和分段，可以分为六个字符串，分别是 scheme (协议) ，netloc (域名) ，path (路径)，params (参数)，query (查询条件)和 fragment (锚点) ，其结构如下所示：“scheme://netloc/path;parameters?query#fragment”。实际上具体 url 某些字段可能会不存在，比如 “http://www.baidu.com” 只包含了协议和域名。

urlparse 函数中参数定义

urlstring，待解析的 url 字符串。
scheme ，是默认的协议，比如 http 或者 https ，url 字符串中如果不携带相关协议，可以通过 scheme 来指定，如果 url 中指定了相关协议则在 url 中生效。
allow_fragments，是否忽略锚点，设置为 False 即 fragment 部分会被忽略，反之不会忽略。

urlparse 的返回类型

函数返回的是一个 urllib.parse.ParseResult 对象，获取解析出来的 url 六个字段。

urlparse 应用举例

# 解析并输出 url 中每个字段的字符串nimport urllibnurl = 'http://www.baidu.com/urllib.parse.html;python?kw=urllib.parse#module-urllib'nresult = urllib.parse.urlparse(url)nprint(result)nprint(result.scheme, result.netloc, result.path, result.params, result.query, result.fragment, sep = 'n')

urllib.parse.urlunparse(parts)

与 urlparse 相反，通过列表或者元祖的形式将分段的字符串组合成一个完整的 url 字符串。

urlunparse 函数中参数定义

parts ，可以是列表或者元组。

urlunparse 的返回类型

urlunparse 函数返回一个构造好的 url 字符串。

应用举例：

# 通过 data 列表或元组构造一个 url 并输出nimport urllibndataList = ['http', 'www.baidu.com', '/urllib.parse.html', 'python', 'kw=urllib.parse', 'modul-urllib'] # 六个字符串都必须填写，否则会出现 ValueError 错误，如果某一字符串不存在则填入空字符ndataTuple = ('http', 'www.baidu.com', '/urllib.parse.html', '', 'kw=urllib.parse', 'modul-urllib') # 六个字符串都必须填写，否则会出现 ValueError 错误，如果某一字符串不存在则填入空字符nurlList = urllib.parse.urlunparse(dataList)nurlTuple = urllib.parse.urlunparse(dataTuple)nprint('1.urlList:%sn2.urlTuple:%s' % (urlList, urlTuple))

urllib.parse.urlsplit(urlstring, scheme=’’, allow_fragments=True)

与 urlparse 函数类似，但它只返回 url 字符串的5个字段，把 params 合并到 path 中。

urlsplit 应用举例

# 解析并输出 url 中每个字段的字符串，params 会合并到 path 中。nimport urllibnurl = 'http://www.baidu.com/urllib.parse.html;python?kw=urllib.parse#modul-urllib'nresult = urllib.parse.urlsplit(url)nprint(result)nprint(result.scheme, result.netloc, result.path, result.query, result.fragment, sep = 'n')

urllib.parse.urlunsplit(parts)

与 urlunparse 函数类似，它也是将 url 各部分字段组合完整的 url 字符串的方法，唯一的区别是列表或元组的长度必须是5个，因为它把 params 省略了。

urlunsplit 应用举例

# 通过 data 列表或元组构造一个 url 并输出nimport urllibndataList = ['http', 'www.baidu.com', '/urllib.parse.html;python', 'kw=urllib.parse', 'modul-urllib'] # 五个字符串都必须填写，否则会出现 ValueError 错误，如果某一字符串不存在则填入空字符ndataTuple = ('http', 'www.baidu.com', '/urllib.parse.html;python', 'kw=urllib.parse', 'modul-urllib') # 五个字符串都必须填写，否则会出现 ValueError 错误，如果某一字符串不存在则填入空字符nurlList = urllib.parse.urlunsplit(dataList)nurlTuple = urllib.parse.urlunsplit(dataTuple)nprint('1.urlList:%sn2.urlTuple:%s' % (urlList, urlTuple))

urllib.robotparser.RobotFileParser(url=’’) 类及其常用方法

set_url(url) ，设置引用 robots.txt 文件的 url，如果在创建 RobotFileParser 对象时传入了 url，那么就不需要使用这个方法设置 url。
read()，读取 robots.txt 文件并未将其提供给解析器，不返回任何内容。
parse(lines)，用来解析 robots.txt 某些行的内容，并安装语法规则来分析内容。
can_fetch(useragent, url)，传入两个参数，用户代理以及要爬取的网站，返回的内容是该用户代理是否可以抓取这个网站，结果为 True 或 False。

应用举例

# 使用两种爬虫代理分别查看是否可以对 'http://www.baidu.com' 网站进行爬取nfrom urllib.robotparser import RobotFileParsernrp = RobotFileParser()nrp.set_url("http://www.baidu.com/robots.txt")nrp.read()nprint(rp.can_fetch('Baiduspider', 'http://www.baidu.com')) nprint(rp.can_fetch('*', 'http://www.baidu.com'))n

城市分站汕尾陕西五指山韶关大同

友情链接长春亚泰1:0击退深圳迎来两连胜致敬中国女篮袁思俊4比5惜败，吕昊天不敌丁俊晖终结者，艾伦擒塞尔比进4强热身赛-内马尔点射拉菲尼亚梅开二度巴西5-1大胜十人突尼斯患癌前的聂卫平有多放纵？烟酒成瘾，连吃13只螃蟹，喝百万茅台浙江省运会U15决赛内幕：宁波队有后台，导致补时绝平+点球获胜羽坛李宗伟近照，骨瘦如柴，曾花费千万抗癌，如今妻子生下第三子女排名帅陈忠和近况：二婚娶女排弟子为妻，今已退休携妻回归家庭致敬中国女篮字母哥33+15，雄鹿大胜篮网豪取十五连胜世界杯32强，中国队签运不佳，或进入“死亡之组”，菲律宾上上签欧国联：葡萄牙vs西班牙，“双牙”之争，难分胜负？令人唏嘘，从世界足球先生到入狱的老赖，小罗到底经历了什么篮球名宿朱芳雨：两次婚姻都娶性感女神，退役成霸道总经理梅西VS姆巴佩本届世界杯多项数据对比进球数5-5 女篮世界杯-美国队五连胜晋级八强韩国队生死战告负无缘出线世界杯前4名奖金分配：冠亚军差距大，克罗地亚只比摩洛哥多200万丁俊晖保持赛季不败，4杆高分擒强敌晋级第二轮！吕昊天入围16强世乒赛团体赛中国男女队抽得上上签，日本与中国香港男队同组厮杀欧国联：葡萄牙vs西班牙，“双牙”之争，难分胜负？热身赛-梅西替补梅开二度阿尔瓦雷斯建功阿根廷3-0完胜牙买加中国队晋级女篮世界杯八强患癌前的聂卫平有多放纵？烟酒成瘾，连吃13只螃蟹，喝百万茅台 FIBA官方女篮世界杯MVP投票：中国三将入选李梦得票30%遥遥领先女篮世界杯-中国队遗憾不敌美国斩获银牌追平历史最佳战绩世界杯决赛：阿根廷VS法国滚滚长江东逝水，浪花淘尽英雄字母哥33+15，雄鹿大胜篮网豪取十五连胜首个世界冠军在招手？李梦出战成疑新黄金一代盼超越前辈创历史热身赛-孙兴慜连场进球孙准浩首发韩国1-0力克喀麦隆队报：本泽马和法国队中断联系，球员原本想留在国家队治疗世乒赛首个冷门！59岁老奶奶独得两分，卢森堡3比1爆冷战胜韩国女足德转：山东女足国脚张睿、李艳飞自由身加盟武汉女足热身赛-内马尔点射拉菲尼亚梅开二度巴西5-1大胜十人突尼斯中超-谭龙4分钟闪击后伤退，亚泰1-0取2连胜，深圳队遭遇连败世乒赛团体赛中国男女队抽得上上签，日本与中国香港男队同组厮杀当之无愧！韩旭入选女篮世界杯最佳阵容美国队威尔逊获MVP 欧国联：葡萄牙vs西班牙，“双牙”之争，难分胜负？欧国联综合：西班牙挺进四强捷克小组垫底降级世乒赛首个冷门！59岁老奶奶独得两分，卢森堡3比1爆冷战胜韩国热身赛-内马尔点射拉菲尼亚梅开二度巴西5-1大胜十人突尼斯

联系我们

地址：联系地址联系地址联系地址

电话：020-123456789

传真：020-123456789

邮箱：admin@aa.com

0.29