資訊內(nèi)容
python爬蟲(chóng)要用到哪些庫(kù)?
8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
python爬蟲(chóng)要用到的庫(kù):8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
請(qǐng)求庫(kù):實(shí)現(xiàn) HTTP 請(qǐng)求操作8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
urllib:一系列用于操作URL的功能。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
requests:基于 urllib 編寫(xiě)的,阻塞式 HTTP 請(qǐng)求庫(kù),發(fā)出一個(gè)請(qǐng)求,一直等待服務(wù)器響應(yīng)后,程序才能進(jìn)行下一步處理。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
selenium:自動(dòng)化測(cè)試工具。一個(gè)調(diào)用瀏覽器的 driver,通過(guò)這個(gè)庫(kù)你可以直接調(diào)用瀏覽器完成某些操作,比如輸入驗(yàn)證碼。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
aiohttp:基于 asyncio 實(shí)現(xiàn)的 HTTP 框架。異步操作借助于 async/await 關(guān)鍵字,使用異步庫(kù)進(jìn)行數(shù)據(jù)抓取,可以大大提高效率。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
解析庫(kù):從網(wǎng)頁(yè)中提取信息8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
beautifulsoup:html 和 XML 的解析,從網(wǎng)頁(yè)中提取信息,同時(shí)擁有強(qiáng)大的API和多樣解析方式。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
pyquery:jQuery 的 Python 實(shí)現(xiàn),能夠以 jQuery 的語(yǔ)法來(lái)操作解析 HTML 文檔,易用性和解析速度都很好。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
tesserocr:一個(gè) OCR 庫(kù),在遇到驗(yàn)證碼(圖形驗(yàn)證碼為主)的時(shí)候,可直接用 OCR 進(jìn)行識(shí)別。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
存儲(chǔ)庫(kù):Python 與數(shù)據(jù)庫(kù)交互8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
pymysql:一個(gè)純 Python 實(shí)現(xiàn)的 MySQL 客戶(hù)端操作庫(kù)。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
pymongo:一個(gè)用于直接連接 mongodb 數(shù)據(jù)庫(kù)進(jìn)行查詢(xún)操作的庫(kù)。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
redisdump:一個(gè)用于 redis 數(shù)據(jù)導(dǎo)入/導(dǎo)出的工具。基于 ruby 實(shí)現(xiàn)的,因此使用它,需要先安裝 Ruby。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
爬蟲(chóng)框架8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
Scrapy:很強(qiáng)大的爬蟲(chóng)框架,可以滿(mǎn)足簡(jiǎn)單的頁(yè)面爬取(比如可以明確獲知url pattern的情況)。用這個(gè)框架可以輕松爬下來(lái)如亞馬遜商品信息之類(lèi)的數(shù)據(jù)。但是對(duì)于稍微復(fù)雜一點(diǎn)的頁(yè)面,如 weibo 的頁(yè)面信息,這個(gè)框架就滿(mǎn)足不了需求了。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
Crawley:高速爬取對(duì)應(yīng)網(wǎng)站的內(nèi)容,支持關(guān)系和非關(guān)系數(shù)據(jù)庫(kù),數(shù)據(jù)可以導(dǎo)出為 JSON、XML 等。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
Portia:可視化爬取網(wǎng)頁(yè)內(nèi)容。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
newspaper:提取新聞、文章以及內(nèi)容分析。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
python-goose:java 寫(xiě)的文章提取工具。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
cola:一個(gè)分布式爬蟲(chóng)框架。項(xiàng)目整體設(shè)計(jì)有點(diǎn)糟,模塊間耦合度較高。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
Web框架庫(kù)8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
flask:輕量級(jí)的 web 服務(wù)程序,簡(jiǎn)單,易用,靈活,主要來(lái)做一些 API 服務(wù)。做代理時(shí)可能會(huì)用到。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
django:一個(gè) web 服務(wù)器框架,提供了一個(gè)完整的后臺(tái)管理,引擎、接口等,使用它可做一個(gè)完整網(wǎng)站。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)
更多Python知識(shí)請(qǐng)關(guān)注Python自學(xué)網(wǎng)。8Uu少兒編程網(wǎng)-Scratch_Python_教程_免費(fèi)兒童編程學(xué)習(xí)平臺(tái)

- 上一篇
mac怎么執(zhí)行python文件?
簡(jiǎn)介Mac執(zhí)行python文件的方法:以如下test.py文件為例來(lái)看一下在Mac中如何執(zhí)行python文件。執(zhí)行方法:方法一:1、打開(kāi)mac終端,進(jìn)入test.py文件保存目錄2、使用pythontest.py命令執(zhí)行python文件方法二:1、進(jìn)入ipythonshell模式:2、將文件名傳給%ru
- 下一篇
剖析Python垃圾回收機(jī)制
簡(jiǎn)介python教程欄目今天來(lái)剖析Python垃圾回收機(jī)制!1、垃圾回收引用計(jì)數(shù)器為主、分代碼回收和標(biāo)記清除為輔1.1大管家refchain在Python的C源碼中有一個(gè)名為refchain的環(huán)狀雙向鏈表,這個(gè)鏈表比較牛逼了,因?yàn)镻ython程序中一旦創(chuàng)建對(duì)象都會(huì)把這個(gè)對(duì)象添加到refchain這個(gè)鏈表