資訊內容
詳解Python之urllib爬蟲、request模塊和parse模塊

文章目錄TWM少兒編程網-https://www.pxcodes.com
urllibrequest模塊訪問URLRequest類其他類parse模塊解析URL轉義URLrobots.txt文件(免費學習推薦:python視頻教程)TWM少兒編程網-https://www.pxcodes.com
urllibTWM少兒編程網-https://www.pxcodes.com
urllib是Python中用來處理URL的工具包,源碼位于/Lib/下。它包含了幾個模塊:用于打開及讀寫的urls的request模塊、由request模塊引起異常的error模塊、用于解析urls的parse模塊、用于響應處理的response模塊、分析robots.txt文件的robotparser模塊。TWM少兒編程網-https://www.pxcodes.com
注意版本差異。urllib有3個版本:Python2.X包含urllib、urllib2模塊,Python3.X把urllib、urllib2以及urlparse合成到urllib包中,而urllib3是新增的第三方工具包。若遇到"No module named urllib2"等問題幾乎都是Python版本不同導致的。TWM少兒編程網-https://www.pxcodes.com
urllib3是一個功能強大、條例清晰、用于HTTP客戶端的Python庫。它提供了許多Python標準庫里所沒有的特性:壓縮編碼、連接池、線程安全、SSL/TLS驗證、HTTP和SCOCKS代理等。可以通過pip進行安裝:pip install urllib3
也可以通過GitHub下載**新代碼:TWM少兒編程網-https://www.pxcodes.com
urllib3參考文檔:https://urllib3.readthedocs.io/en/latest/TWM少兒編程網-https://www.pxcodes.com
request模塊TWM少兒編程網-https://www.pxcodes.com
urllib.request模塊定義了身份認證、重定向、cookies等應用中打開url的函數和類。TWM少兒編程網-https://www.pxcodes.com
再簡單介紹下request包,該包用于高級的非底層的HTTP客戶端接口,容錯能力比request模塊強大。request使用的是urllib3,它繼承了urllib2的特性,支持HTTP連接保持和連接池,支持使用cookie保持會話、文件上傳、自動解壓縮、Unicode響應、HTTP(S)代理等。更多具體可參考文檔http://requests.readthedocs.io。TWM少兒編程網-https://www.pxcodes.com
下面將介紹urllib.request模塊常用函數和類。TWM少兒編程網-https://www.pxcodes.com
訪問URLTWM少兒編程網-https://www.pxcodes.com
一、urlopen()TWM少兒編程網-https://www.pxcodes.com
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=false,context=None)該函數用于抓取URL數據,十分重要。帶有如上所示的參數,除了URL參數外(字符串或Request對象)其余參數都有默認值。TWM少兒編程網-https://www.pxcodes.com
①URL參數TWM少兒編程網-https://www.pxcodes.com
from urllib import requestwith request.urlopen("http://www.baidu.com") as f: print(f.status) print(f.getheaders())#運行結果如下200[('Bdpagetype', '1'), ('Bdqid', '0x8583c98f0000787e'), ('Cache-Control', 'private'), ('Content-Type', 'text/html;charset=utf-8'), ('Date', 'Fri, 19 Mar 2021 08:26:03 GMT'), ('Expires', 'Fri, 19 Mar 2021 08:25:27 GMT'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('P3p', 'CP=" OTI DSP COR IVA OUR IND COM "'), ('Server', 'BWS/1.1'), ('Set-Cookie', 'BAIDUID=B050D0981EE3A706D726852655C9FA21:FG=1; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BIDUPSID=B050D0981EE3A706D726852655C9FA21; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'PSTM=1616142363; expires=Thu, 31-Dec-37 23:55:55 GMT; max-age=2147483647; path=/; domain=.baidu.com'), ('Set-Cookie', 'BAIDUID=B050D0981EE3A706FA20DF440C89F27F:FG=1; max-age=31536000; expires=Sat, 19-Mar-22 08:26:03 GMT; domain=.baidu.com; path=/; version=1; comment=bd'), ('Set-Cookie', 'BDSVRTM=0; path=/'), ('Set-Cookie', 'BD_HOME=1; path=/'), ('Set-Cookie', 'H_PS_PSSID=33272_33710_33690_33594_33600_33624_33714_33265; path=/; domain=.baidu.com'), ('Traceid', '161614236308368819309620754845011048574'), ('Vary', 'Accept-Encoding'), ('Vary', 'Accept-Encoding'), ('X-Ua-Compatible', 'IE=Edge,chrome=1'), ('Connection', 'close'), ('Transfer-Encoding', 'chunked')]②data參數
如果向服務器發送數據,那么data參數必須是一個有數據的 byes對象,否則為None。在Python3.2之后可以是一個iterable對象。若是,則headers中必須帶有Content-Length參數。HTTP請求使用POST方法時,data必須有數據;使用GET方法時,data寫None即可。TWM少兒編程網-https://www.pxcodes.com
對數據進行POST請求,需要轉碼bytes類型或者iterable類型。這里通過bytes()進行字節轉換,考慮到第一個參數為字符串,所以需要利用parse模塊(下面會講)的urlencode()方法對上傳的數據進行字符串轉換,同時指定編碼格式為utf8。測試網址httpbin.org可以提供HTTP測試,從返回的內容可以看出提交以表單form作為屬性、以字典作為屬性值。TWM少兒編程網-https://www.pxcodes.com
③timeout參數
該參數是可選的,以秒為單位指定一個超時時間,若超過該時間則任何操作都會被阻止,如果沒有指定,那么默認會取sock.GLOBAL_DEFAULT_TIMEOUT對應的值。該參數僅對http、https、ftp連接有效。TWM少兒編程網-https://www.pxcodes.com
超時后會拋出urllib.error.URLError:<urlopen error time out>異常,可以用try…except來處理異常。TWM少兒編程網-https://www.pxcodes.com
from urllib import request response = request.urlopen("http://httpbin.org/get",timeout=1)print(response.read())#運行結果如下b'{ "args": {}, "headers": { "Accept-Encoding": "identity", "Host": "httpbin.org", "User-Agent": "Python-urllib/3.9", "X-Amzn-Trace-Id": "Root=1-605469dd-76a6d963171127c213d9a9ab" }, "origin": "112.48.80.243", "url": "http://httpbin.org/get" } '④返回對象的常用方法和屬性
除了前三個urlopen()常用參數外,該函數返回用作context manager(上下文管理器)的類文件對象,并包含如下方法:TWM少兒編程網-https://www.pxcodes.com
運行結果:
附:狀態碼對應狀態TWM少兒編程網-https://www.pxcodes.com
二、build_opener()TWM少兒編程網-https://www.pxcodes.com
urllib.request.build_opener([handler1 [handler2, ...]])該函數不支持驗證、cookie及其他HTTP高級功能。要支持這些功能必須使用build_opener()函數自定義OpenerDirector對象,稱之為Opener。TWM少兒編程網-https://www.pxcodes.com
build_opener()函數返回的是OpenerDirector實例,而且是按給定的順序鏈接處理程序的。作為OpenerDirector實例,可以從OpenerDirector類的定義看出他具有addheaders、handlers、handle_open、add_handler()、open()、close()等屬性或方法。open()方法與urlopen()函數的功能相同。
上述代碼通過修改http報頭進行HTTP高級功能操作,然后利用返回對象open()進行請求,返回結果與urlopen()一樣,只是內存位置不同而已。TWM少兒編程網-https://www.pxcodes.com
實際上urllib.request.urlopen()方法只是一個Opener,如果安裝啟動器沒有使用urlopen啟動,調用的就是OpenerDirector.open()方法。那么如何設置默認全局啟動器呢?就涉及下面的install_opener函數。TWM少兒編程網-https://www.pxcodes.com
三、install_opener()TWM少兒編程網-https://www.pxcodes.com
urllib.request.install_opener(opener)安裝OpenerDirector實例作為默認全局啟動器。
首先導入request模塊,實例化一個HTTPBasicAuthHandler對象,然后通過利用add_password()添加用戶名和密碼來創建一個認證處理器,利用urllib.request.build_opener()方法來調用該處理器以構建Opener,并使其作為默認全局啟動器,這樣Opener在發生請求時具備了認證功能。通過Opener的open()方法打開鏈接完成認證。TWM少兒編程網-https://www.pxcodes.com
當然了,CSDN不需要賬號密碼也可以訪問,讀者還可以在其他網站上用自己的賬號進行測試。TWM少兒編程網-https://www.pxcodes.com
除了上述方法外,還有將路徑轉換為URL的pathname2url(path)、將URL轉換為路徑的url2pathname(path),以及返回方案至代理服務器URL映射字典的getproxies()等方法。TWM少兒編程網-https://www.pxcodes.com
Request類TWM少兒編程網-https://www.pxcodes.com
前面介紹的urlopen()方法可以滿足一般基本URL請求,如果需要添加headers信息,就要考慮更為強大的Request類了。Request類是URL請求的抽象,包含了許多參數,并定義了一系列屬性和方法。TWM少兒編程網-https://www.pxcodes.com
一、定義TWM少兒編程網-https://www.pxcodes.com
class urllib.request.Request(url,data=None,headers={},origin_req_host=None,unverifiable=False,method=None)參數url是有效網址的字符串,同urlopen()方法中一樣,data參數也是。headers是一個字典,可以通過add_header()以鍵值進行調用。通常用于爬蟲爬取數據時或者Web請求時更改User-Agent標頭值參數來進行請求。origin_req_host是原始請求主機,比如請求的是針對HTML文檔中的圖像的,則該請求主機是包含圖像頁面所在的主機。Unverifiable指示請求是否是無法驗證的。method指示使用的是HTTP請求方法。常用的有GET、POST、PUT、DELETE等,代碼示例:TWM少兒編程網-https://www.pxcodes.com
from urllib import requestfrom urllib import parse data = parse.urlencode({"name":"baidu"}).encode('utf-8')headers = {'User-Agent':'wzlodq'}req = request.Request(url="http://httpbin.org/post",data=data,headers=headers,method="POST")response = request.urlopen(req)print(response.read())#運行結果如下b'{ "args": {}, "data": "", "files": {}, "form": { "name": "baidu" }, "headers": { "Accept-Encoding": "identity", "Content-Length": "10", "Content-Type": "application/x-www-form-urlencoded", "Host": "httpbin.org", "User-Agent": "wzlodq", "X-Amzn-Trace-Id": "Root=1-605491a4-1fcf3df01a8b3c3e22b5edce" }, "json": null, "origin": "112.48.80.34", "url": "http://httpbin.org/post" } '注意data參數和前面一樣需是字節流類型的,不同的是調用Request類進行請求。TWM少兒編程網-https://www.pxcodes.com
二、屬性方法TWM少兒編程網-https://www.pxcodes.com
①Request.full_url
full_url屬性包含setter、getter和deleter。如果原始請求URL片段存在,那么得到的full_url將返回原始請求的URL片段,通過添加修飾器@property將原始URL傳遞給構造函數。TWM少兒編程網-https://www.pxcodes.com
②Request.type:獲取請求對象的協議類型。
③Request.host:獲取URL主機,可能含有端口的主機。
④Request.origin_req_host:發出請求的原始主機,沒有端口。
⑤Request.get_method():返回顯示HTTP請求方法的字符串。TWM少兒編程網-https://www.pxcodes.com
(插播反爬信息 )博主CSDN地址:https://wzlodq.blog.csdn.net/TWM少兒編程網-https://www.pxcodes.com
⑥Request.add_header(key,val):向請求中添加標頭。 TWM少兒編程網-https://www.pxcodes.com
from urllib import requestfrom urllib import parse data = bytes(parse.urlencode({'name':'baidu'}),encoding='utf-8')req = request.Request('http://httpbin.org/post',data,method='POST')req.add_header('User-agent','test')response = request.urlopen(req)print(response.read().decode('utf-8'))
上述代碼中,通過add_header()傳入了User-Agent,在爬蟲過程中,常常通過循環調用該方法來添加不同的User-Agent進行請求,避免服務器針對某一User-Agent的禁用。TWM少兒編程網-https://www.pxcodes.com
其他類TWM少兒編程網-https://www.pxcodes.com
BaseHandler為所有注冊處理程序的基類,并且只處理注冊的簡單機制,從定義上看,BaseHandler提供了一個添加基類的add_parent()方法,后面介紹的類都是繼承該類操作的。TWM少兒編程網-https://www.pxcodes.com
HTTPErrorProcessor:用于HTTP錯誤響應過程。HTTPDefaultErrorHandler:用于處理HTTP響應錯誤。ProxyHandler:用于設置代理。HTTPRedirectHandler:用于設置重定向。HTTPCookieProcessor:用于處理cookie。HEEPBasicAuthHandler:用于管理認證。parse模塊TWM少兒編程網-https://www.pxcodes.com
parse模塊用于分解URL字符串為各個組成部分,包括尋址方案、網絡位置、路徑等,也可將這些部分組成URL字符串,同時可以對“相對URL"進行轉換等。TWM少兒編程網-https://www.pxcodes.com
解析URLTWM少兒編程網-https://www.pxcodes.com
一、urllib.parse.urlparse(urlstring,scheme=’’,allow_fragments=True)
解析URL為6個部分,即返回一個6元組(tuple子類的實例),tuple類具有下標所示的屬性:TWM少兒編程網-https://www.pxcodes.com
netloc網絡位置部分1空字符串path分層路徑2空字符串params**后路徑元素的參數3空字符串query查詢組件4空字符串fragment片段標識符5空字符串username用戶名
Nonepassword密碼
Nonehostname主機名
Noneport端口號
None
**后組成的URL結構為scheme://netloc/path;parameters?query#fragment
舉個栗子:TWM少兒編程網-https://www.pxcodes.com
需要注意的是urlparse有時并不能很好地識別netloc,它會假定相對URL以路徑分量開始,將其取值放在path中。TWM少兒編程網-https://www.pxcodes.com
二、urllib.parse.urlunparse(parts)
是urlparse()的逆操作,即將urlparse()返回的原則構建一個URL。TWM少兒編程網-https://www.pxcodes.com
三、urllib.parse.urlsplit(urlstring,scheme=’’.allow_fragments=True)
類似urlparse(),但不會分離參數,即返回的元組對象沒有params元素,是一個五元組,對應下標指數也發生了改變。TWM少兒編程網-https://www.pxcodes.com
四、urllib.parse.urlunsplit(parts)
類似urlunparse(),是urlsplit()的逆操作,不再贅述。TWM少兒編程網-https://www.pxcodes.com
五、urllib.parse.urljoin(base,url,allow_fragments=True)
該函數主要組合基本網址(base)與另一個網址(url)以構建新的完整網址。
相對路徑和絕對路徑的url組合是不同的,而且相對路徑是以**后部分路徑進行替換處理的: TWM少兒編程網-https://www.pxcodes.com
六、urllib.parse.urldefrag(url)
根據url進行分割,如果url包含片段標識符,就返回url對應片段標識符前的網址,fragment取片段標識符后的值。如果url沒有片段標識符,那么fragment為空字符串。TWM少兒編程網-https://www.pxcodes.com
轉義URLTWM少兒編程網-https://www.pxcodes.com
URL轉義可以避免某些字符引起歧義,通過引用特殊字符并適當編排非ASCII文本使其作為URL組件安全使用。同時也支持反轉這些操作,以便從URL組件內容重新創建原始數據。TWM少兒編程網-https://www.pxcodes.com
一、urllib.parse.quote(string,safe=’/’,encoding=None,errors=None)
使用%xx轉義替換string中的特殊字符,其中字母、數字和字符’_.-‘不會進行轉義。默認情況下,此函數用于轉義URL的路徑部分,可選的safe參數指定不應轉義的其他ASCII字符——其默認值為’/’。
特別注意的是若string是bytes,encoding和errors就無法指定,否則報錯TypeError。TWM少兒編程網-https://www.pxcodes.com
二、urllib.parse.unquote(string,encoding=‘utf-8’,errors=‘replace’)
該函數時quote()的逆操作,即將%xx轉義為等效的單字符。參數encoding和errors用來指定%xx編碼序列解碼為Unicode字符,同bytes.decode()方法。TWM少兒編程網-https://www.pxcodes.com
三、urllib.parse.quote_plus(string,safe=’’,encoding=None,errors=None)
該函數時quote()的增強版,與之不同的是用+替換空格,而且如果原始URL有字符,那么+將被轉義。TWM少兒編程網-https://www.pxcodes.com
四、urllib.parse.unquote_plus(string,encoding=‘utf-8’,errors=‘replace’)
類似unquote(),不再贅述。TWM少兒編程網-https://www.pxcodes.com
五、urllib.parse.urlencode(query,doseq=False,safe=’’,encoding=None,errors=None,quote_via=quote_plus)
該函數前面提到過,通常在使用HTTP進行POST請求傳遞的數據進行編碼時使用。TWM少兒編程網-https://www.pxcodes.com
robots.txt文件TWM少兒編程網-https://www.pxcodes.com
robotparser模塊很簡單,僅定義了3個類(RobotFileParser、RuleLine、Entry)。從__all__屬性來看也就RobotFileParser一個類(用于處理有關特定用戶代理是否可以發布robots.txt文件的網站上提前網址內容)。TWM少兒編程網-https://www.pxcodes.com
robots文件類似一個協議文件,搜索引擎訪問網站時查看的第一個文件,會告訴爬蟲或者蜘蛛程序在服務器上可以查看什么文件。TWM少兒編程網-https://www.pxcodes.com
RobotFileParser類有一個url參數,常用以下方法:TWM少兒編程網-https://www.pxcodes.com
set_url():用來設置指向robots.txt文件的網址。read():讀取robots.txt網址,并將其提供給解析器。parse():用來解析robots.txt文件。can_fetch():用來判斷是否可提前url。mtime():返回上次抓取robots.txt文件的時間。modified():將上次抓取robots.txt文件的時間設置為當前時間。TWM少兒編程網-https://www.pxcodes.com
大量免費學習推薦,敬請訪問python教程(視頻)TWM少兒編程網-https://www.pxcodes.com
以上就是詳解Python之urllib爬蟲、request模塊和parse模塊的詳細內容,更多請關注少兒編程網其它相關文章!TWM少兒編程網-https://www.pxcodes.com

- 上一篇
學習用Python實現簡單的人臉識別
簡介前言讓我的電腦認識我,我的電腦只有認識我,才配稱之為我的電腦!今天,我們用Python實現簡單的人臉識別技術!Python里,簡單的人臉識別有很多種方法可以實現,依賴于python膠水語言的特性,我們通過調用包可以快速準確的達成這一目的。這里介紹的是準確性比較高的一種。(免費學習推薦:python視
- 下一篇
Python 編程開發 實用經驗和技巧大放送
簡介文章目錄一、小數保留指定位小數1.%f方法2.format函數3.round()函數4.直接截斷二、判斷變量的數據類型1.type():2.isinstance()3.__class__.__name__屬性三、Python中的類方法(@classmethod)四、str.format與制表符 設