您現在的位置是：首頁 » python編程資訊

資訊內容

python3爬蟲入門：常用網絡爬蟲模塊和技術

極客小將2020-12-11-

簡介urllib模塊urllib庫是python中自帶的模塊，也是一個最基本的網絡請求庫，該模塊提供了一個urlopen()方法，通過該方法指定URL發送網絡請求來獲取數據。urllib是一個收集了多個涉及URL的模塊的包urllib.request打開和讀取URL三行代碼即可爬取百度首頁源代碼：imp

urllib模塊qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib庫是python中自帶的模塊，也是一個**基本的網絡請求庫，該模塊提供了一個urlopen()方法，通過該方法指定URL發送網絡請求來獲取數據。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib 是一個收集了多個涉及 URL 的模塊的包
qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib.request 打開和讀取 URL
qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

三行代碼即可爬取百度首頁源代碼：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import urllib.request # 打開指定需要爬取的網頁 response=urllib.request.urlopen('http://www.baidu.com') # 或者是 # from urllib import request # response = request.urlopen('http://www.baidu.com') # 打印網頁源代碼 print(response.read().decode())

加入decode()是為了避免出現下圖中十六進制內容qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

加入decode()進行解碼后qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

下面三種本篇將不做詳述qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib.error 包含 urllib.request 拋出的異常qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib.parse 用于解析 URLqOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

urllib.robotparser 用于解析 robots.txt 文件qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

requests模塊qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

requests模塊是python中實現HTTP請求的一種方式，是第三方模塊，該模塊在實現HTTP請求時要比urllib模塊簡化很多，操作更加人性化。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

以GET請求為例：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import requests response = requests.get('http://www.baidu.com/') print('狀態碼：', response.status_code) print('請求地址：', response.url) print('頭部信息：', response.headers) print('cookie信息：', response.cookies) # print('文本源碼：', response.text) # print('字節流源碼：', response.content)

輸出結果如下：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

狀態碼： 200 請求地址： http://www.baidu.com/ 頭部信息： {'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sun, 10 May 2020 02:43:33 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:28:23 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'} cookie信息： <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>

這里講解一下response.text和 response.content的區別:qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

response.content是直接從網絡上面抓取的數據,沒有經過任何解碼,所以是一個 bytes類型
qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

response.text是將response.content進行解碼的字符串,解碼需要指定一個編碼方式, requests會根據自己的猜測來判斷編碼的方式,所以有時候可能會猜測錯誤,就會導致解碼產生亂碼,這時候就應該使用 response.content.decode(‘utf-8’)qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

進行手動解碼qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

以POST請求為例qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import requests data={'word':'hello'} response = requests.post('http://www.baidu.com',data=data) print(response.content)

請求headers處理qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

當爬取頁面由于該網頁為防止惡意采集信息而使用反爬蟲設置，從而拒絕用戶訪問，我們可以通過模擬瀏覽器的頭部信息來進行訪問，這樣就能解決反爬蟲設置的問題。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

通過瀏覽器進入指定網頁，右擊鼠標，選中“檢查”，選擇“Network”，刷新頁面后選擇第一條信息，右側消息頭面板將顯示下圖中請求頭部信息qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

例如：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import requests url = 'https://www.bilibili.com/' headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'} response = requests.get(url, headers=headers) print(response.content.decode())

網絡超時qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

在訪問一個頁面，如果該頁面長時間未響應，系統就會判斷該網頁超時，所以無法打開網頁。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

例如：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import requests url = 'http://www.baidu.com' # 循環發送請求50次 for a in range(0, 50): try: # timeout數值可根據用戶當前網速，自行設置 response = requests.get(url, timeout=0.03) # 設置超時為0.03 print(response.status_code) except Exception as e: print('異常'+str(e)) # 打印異常信息

部分輸出結果如下：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

代理服務
qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

設置代理IP可以解決不久前可以爬取的網頁現在無法爬取了，然后報錯——由于連接方在一段時間后沒有正確答復或連接的主機沒有反應，連接嘗試失敗的問題。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

以下網站可以提供免費代理IP https://www.xicidaili.com/

例如：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

import requests # 設置代理IP proxy = {'http': '117.45.139.139:9006', 'https': '121.36.210.88:8080' } # 發送請求 url = 'https://www.baidu.com' response = requests.get(url, proxies=proxy) # 也就是說如果想取文本數據可以通過response.text # 如果想取圖片，文件，則可以通過 response.content # 以字節流的形式打印網頁源代碼,bytes類型 print(response.content.decode()) # 以文本的形式打印網頁源代碼，為str類型 print(response.text) # 默認”iso-8859-1”編碼，服務器不指定的話是根據網頁的響應來猜測編碼。

Beautiful Soup模塊qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

Beautiful Soup模塊是一個用于HTML和XML文件中提取數據的python庫。Beautiful Soup模塊自動將輸入的文檔轉換為Unicode編碼，輸出文檔轉換為UTF-8編碼，你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時，Beautiful Soup就不能自動識別編碼方式了，然后，僅僅需要說明一下原始編碼方式就可以了。qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

例如：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

from bs4 import BeautifulSoup html_doc = """ <html><head><title>The Dormouse's story</title></head> <body> The Dormouse's story Once upon a time there were three little sisters; and their names were <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>, <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>; and they lived at the bottom of a well. ... """ # 創建對象 soup = BeautifulSoup(html_doc, features='lxml') # 或者創建對象打開需要解析的html文件 # soup = BeautifulSoup(open('index.html'), features='lxml') print('源代碼為：', soup)# 打印解析的HTML代碼

運行結果如下：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

<html><head><title>The Dormouse's story</title></head> <body> The Dormouse's story Once upon a time there were three little sisters; and their names were <a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a> and <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>; and they lived at the bottom of a well. ... </body></html>

用Beautiful Soup爬取百度首頁標題qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

from bs4 import BeautifulSoup import requests response = requests.get('http://news.baidu.com') soup = BeautifulSoup(response.text, features='lxml') print(soup.find('title').text)

運行結果如下：qOD少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

百度新聞——海量中文資訊平臺

上一篇
Python之自動獲取目標網站最新通知

簡介Python之自動獲取目標網站最新通知：1、建立通知數據庫這一步的目的是爬取目標網站已經發布的通知的數據，并進行存儲，從而建立與該目標網站內容相對應的本地數據庫。考慮到數據庫中的數據將是辨別和獲取一則新通知的唯一方法，因此所建立的數據庫將存儲每一條通知的標題、發布日期和訪問鏈接。第一步使用到的模塊有

下一篇
Python中的進度條progressbar，讓進度直觀顯示！

簡介今天突然被問了一個問題：程序在執行中很久不結束是怎么回事？看不到程序執行的進度，在我們進行大工程的時候的確是一件很頭疼的事，本文讓我們來了解一個很常用的進度條展示小工具——Progressbar。注：最新版的使用者不要照著GitHub上的官方文檔去操作，文檔信息沒有維護，會出現很多問題。下載模塊pi

相關資訊

預約試聽課

已有385人預約都是免費的，你也試試吧...

精品課程

Scratch自學精品課程(45節課)目...

官方教程 10、錄制聲音

官方教程 9、制作音樂

官方教程 8、創作故事

官方教程 7、角色動畫

推薦下載

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下載...

scratchlink 下載

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

標簽云

Scratch(112) python(56) 少兒編程(44) 藍橋杯(32) 小升初(20) Scratch教材(19) 清華大學出版社(19) 電子學會(17) 等級考試(15) scratch作品(13) 真題(11) 數學(10) 人工智能(10) 算法(9) scratch等級(9) 四級考試(9) 三級考試(9) 電子協會(9) Scratch下載(9) 字典(6)

猜你喜歡

認識Scratch的舞臺

Scratch電子學會等級考試時間和...

Scratch考試將會在近期進行全面...

Scratch編程：培養孩子創新思維...

學Scratch編程的費用一般是多少

Scratch教程：進階課程-打地鼠

Scratch教程：進階課程-打蝙蝠...

scratch教程判斷 if then

Scratch計算三角形面積

Scratch會飛的巫婆

Scratch迷宮游戲設計

国产日韩欧美一区二区三区综合,日本黄色免费在线,国产精品麻豆欧美日韩ww,色综合狠狠操

資訊內容

python3爬蟲入門：常用網絡爬蟲模塊和技術

Python之自動獲取目標網站最新通知

Python中的進度條progressbar，讓進度直觀顯示！

相關資訊

預約試聽課