您現在的位置是：首頁 » python編程資訊

資訊內容

python爬蟲：隨心所欲地爬取百度圖片

極客小將2021-03-05-

簡介文章目錄一、前言二、需要導入的庫三、實現過程1、下載鏈接分析2、代碼分析3、完整代碼四、Blogger'sspeech(免費學習推薦：python視頻教程)一、前言之前爬取了很多靜態網頁的內容，包括：小說、圖片等等，今天我來嘗試一下動態網頁的爬取。眾所周知，百度圖片就是一個動態網頁。那么，沖

ZYn少兒編程網-https://www.pxcodes.com

文章目錄ZYn少兒編程網-https://www.pxcodes.com

一、前言二、需要導入的庫三、實現過程1、下載鏈接分析2、代碼分析3、完整代碼四、Blogger's speech

(免費學習推薦：python視頻教程)ZYn少兒編程網-https://www.pxcodes.com

一、前言ZYn少兒編程網-https://www.pxcodes.com

之前爬取了很多靜態網頁的內容，包括：小說、圖片等等，今天我來嘗試一下動態網頁的爬取。眾所周知，百度圖片就是一個動態網頁。那么，沖！沖??！沖?。。Yn少兒編程網-https://www.pxcodes.com

二、需要導入的庫ZYn少兒編程網-https://www.pxcodes.com

import requestsimport jsonimport os

三、實現過程ZYn少兒編程網-https://www.pxcodes.com

1、下載鏈接分析

首先，打開百度，搜索一個內容，這里搜索的是男神（本人）——彭于晏

然后，打開抓包工具，選擇XHR選項，按Ctrl+R，然后你會發現，隨著你鼠標的滑動，右側會出現一個又一個的數據包。

（這里沒滑動太多，一開始因為滑動太多，錄的GIF超5M了）ZYn少兒編程網-https://www.pxcodes.com

然后，選一個包，查看它的headers，如圖：
ZYn少兒編程網-https://www.pxcodes.com

截取之后，粘貼在記事本上，作為一個URL，后文會用到。

這里有很多很多的參數，我也不知道具體哪些是可以忽略的，后文就索性全復制下來了，具體看后文。ZYn少兒編程網-https://www.pxcodes.com

到這里，能夠直接觀察到的內容就結束了，接下來，借助代碼，幫我們打開另一個世界的大門ZYn少兒編程網-https://www.pxcodes.com

沖就完事了！ZYn少兒編程網-https://www.pxcodes.com

2、代碼分析

首先：把上述中的“其它參數”組在一起。ZYn少兒編程網-https://www.pxcodes.com

自己做的話，**好復制自己的“其它參數”。ZYn少兒編程網-https://www.pxcodes.com

之后，我們可以先提取一下試試，并且把編碼格式改成'utf-8'ZYn少兒編程網-https://www.pxcodes.com

url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': '彭于晏', 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': '彭于晏', 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': '30', 'rn': '30', 'gsm': '1e', } # 將編碼形式轉換為utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text print(response)

運行結果如下：

看上去挺亂的哈，沒事，我們給包裝一下！ZYn少兒編程網-https://www.pxcodes.com

在上面的基礎上加上：ZYn少兒編程網-https://www.pxcodes.com

# 把字符串轉換成json數據 data_s = json.loads(response) print(data_s)

運行結果如下：

和上面相比，已經明晰很多了，但依舊不夠明確，為什么呢？因為它打印的格式不方便我們觀看！ ZYn少兒編程網-https://www.pxcodes.com

對此，有兩種解決辦法。ZYn少兒編程網-https://www.pxcodes.com

①導入pprint庫，接著輸入pprint.pprint(data_s)，就能打印啦，如下圖ZYn少兒編程網-https://www.pxcodes.com

ZYn少兒編程網-https://www.pxcodes.com

②使用json在線解析器（自行百度），結果如下：
ZYn少兒編程網-https://www.pxcodes.com

解決掉上一步，我們會發現，想要的數據都在data里面！ZYn少兒編程網-https://www.pxcodes.com

那么就提取吧！ZYn少兒編程網-https://www.pxcodes.com

a = data_s["data"] for i in range(len(a)-1): # -1是為了去掉上面那個空數據 data = a[i].get("thumbURL", "not exist") print(data)

結果如下：

到這里，已經成功90%啦，剩下的就是保存和優化代碼了！ZYn少兒編程網-https://www.pxcodes.com

3、完整代碼

這部分和上面有些許不同，仔細看看就會發現嗷！ZYn少兒編程網-https://www.pxcodes.com

# -*- coding: UTF-8 -*-""" @Author ：遠方的星 @Time : 2021/2/27 17:49 @CSDN ：https://blog.csdn.net/qq_44921056 @騰訊云： https://cloud.tencent.com/developer/user/8320044 """import requestsimport jsonimport osimport pprint# 創建一個文件夾path = 'D:/百度圖片'if not os.path.exists(path): os.mkdir(path)# 導入一個請求頭header = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}# 用戶（自己）輸入信息指令keyword = input('請輸入你想下載的內容：')page = input('請輸入你想爬取的頁數：')page = int(page) + 1n = 0pn = 1# pn代表從第幾張圖片開始獲取，百度圖片下滑時默認一次性顯示30張for m in range(1, page): url = 'https://image.baidu.com/search/acjson?' param = { 'tn': 'resultjson_com', 'logid': ' 7517080705015306512', 'ipn': 'rj', 'ct': '201326592', 'is': '', 'fp': 'result', 'queryWord': keyword, 'cl': '2', 'lm': '-1', 'ie': 'utf-8', 'oe': 'utf-8', 'adpicid': '', 'st': '', 'z': '', 'ic': '', 'hd': '', 'latest': '', 'copyright': '', 'word': keyword, 's': '', 'se': '', 'tab': '', 'width': '', 'height': '', 'face': '', 'istype': '', 'qc': '', 'nc': '1', 'fr': '', 'expermode': '', 'force': '', 'cg': 'star', 'pn': pn, 'rn': '30', 'gsm': '1e', } # 定義一個空列表，用于存放圖片的URL image_url = list() # 將編碼形式轉換為utf-8 response = requests.get(url=url, headers=header, params=param) response.encoding = 'utf-8' response = response.text # 把字符串轉換成json數據 data_s = json.loads(response) a = data_s["data"] # 提取data里的數據 for i in range(len(a)-1): # 去掉**后一個空數據 data = a[i].get("thumbURL", "not exist") # 防止報錯key error image_url.append(data) for image_src in image_url: image_data = requests.get(url=image_src, headers=header).content # 提取圖片內容數據 image_name = '{}'.format(n+1) + '.jpg' # 圖片名 image_path = path + '/' + image_name # 圖片保存路徑 with open(image_path, 'wb') as f: # 保存數據 f.write(image_data) print(image_name, '下載成功啦?。?！') f.close() n += 1 pn += 29

運行結果如下：

友情提示：
①：一頁是30張
②：輸入的內容可以很多變：比如橋、月亮、太陽、胡歌、趙麗穎等等。 ZYn少兒編程網-https://www.pxcodes.com

四、Blogger’s speechZYn少兒編程網-https://www.pxcodes.com

希望大家可以，點贊、關注、收藏，三連支持一下！ZYn少兒編程網-https://www.pxcodes.com

大量免費學習推薦，敬請訪問python教程(視頻)ZYn少兒編程網-https://www.pxcodes.com

以上就是python爬蟲：隨心所欲地爬取百度圖片的詳細內容，更多請關注少兒編程網其它相關文章！ZYn少兒編程網-https://www.pxcodes.com

上一篇
Python怎么排序列表

簡介Python排序列表的方法：1、調用列表的sort方法，輸出原列表，發現原列表變化了；2、使用sorted方法對列表排序，發現直接輸出的時候，輸出的列表為排序好的列表。本教程操作環境：windows7系統、python3.9版，DELLG3電腦。Python排序列表的方法：1、首先我們得知道pyth

下一篇
python字體大小如何設置

簡介python字體大小設置的方法：首先打開Python，在工具欄中單擊“Options”選項；然后選擇下拉列表中的“ConfigureIDLE”；最后在“FontFace”中可選擇字體類型，在“Size”中可選擇字體大小。本教程操作環境：windows7系統、python3.9版，DELLG3電腦。p

相關資訊

預約試聽課

已有385人預約都是免費的，你也試試吧...

精品課程

Scratch自學精品課程(45節課)目...

官方教程 10、錄制聲音

官方教程 9、制作音樂

官方教程 8、創作故事

官方教程 7、角色動畫

推薦下載

Scratch 3.29.1 Windows版 Mac...

Scratch 3.26.0 Setup Windows...

Scratch 3.26 Mac版本官方下載...

scratchlink 下載

Scratch 3.23.1 Mac版本官方下...

Scratch 3.23.1 Setup Windows...

Scratch 3.22.0 Mac版本官方下...

Scratch 3.22.0 Setup Windows...

標簽云

Scratch(112) python(56) 少兒編程(44) 藍橋杯(32) 小升初(20) Scratch教材(19) 清華大學出版社(19) 電子學會(17) 等級考試(15) scratch作品(13) 真題(11) 數學(10) 人工智能(10) 算法(9) scratch等級(9) 四級考試(9) 三級考試(9) 電子協會(9) Scratch下載(9) 字典(6)

猜你喜歡

認識Scratch的舞臺

Scratch電子學會等級考試時間和...

Scratch考試將會在近期進行全面...

Scratch編程：培養孩子創新思維...

學Scratch編程的費用一般是多少

Scratch教程：進階課程-打地鼠

Scratch教程：進階課程-打蝙蝠...

scratch教程判斷 if then

Scratch計算三角形面積

Scratch會飛的巫婆

Scratch迷宮游戲設計

国产日韩欧美一区二区三区综合,日本黄色免费在线,国产精品麻豆欧美日韩ww,色综合狠狠操

資訊內容

python爬蟲：隨心所欲地爬取百度圖片

Python怎么排序列表

python字體大小如何設置

相關資訊

預約試聽課