資訊內容
python爬蟲要用到哪些庫?
8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
python爬蟲要用到的庫:8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
請求庫:實現 HTTP 請求操作8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
urllib:一系列用于操作URL的功能。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
requests:基于 urllib 編寫的,阻塞式 HTTP 請求庫,發出一個請求,一直等待服務器響應后,程序才能進行下一步處理。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
selenium:自動化測試工具。一個調用瀏覽器的 driver,通過這個庫你可以直接調用瀏覽器完成某些操作,比如輸入驗證碼。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
aiohttp:基于 asyncio 實現的 HTTP 框架。異步操作借助于 async/await 關鍵字,使用異步庫進行數據抓取,可以大大提高效率。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
解析庫:從網頁中提取信息8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
beautifulsoup:html 和 XML 的解析,從網頁中提取信息,同時擁有強大的API和多樣解析方式。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
pyquery:jQuery 的 Python 實現,能夠以 jQuery 的語法來操作解析 HTML 文檔,易用性和解析速度都很好。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
lxml:支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
tesserocr:一個 OCR 庫,在遇到驗證碼(圖形驗證碼為主)的時候,可直接用 OCR 進行識別。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
存儲庫:Python 與數據庫交互8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
pymysql:一個純 Python 實現的 MySQL 客戶端操作庫。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
pymongo:一個用于直接連接 mongodb 數據庫進行查詢操作的庫。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
redisdump:一個用于 redis 數據導入/導出的工具。基于 ruby 實現的,因此使用它,需要先安裝 Ruby。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
爬蟲框架8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
Scrapy:很強大的爬蟲框架,可以滿足簡單的頁面爬取(比如可以明確獲知url pattern的情況)。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對于稍微復雜一點的頁面,如 weibo 的頁面信息,這個框架就滿足不了需求了。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
Crawley:高速爬取對應網站的內容,支持關系和非關系數據庫,數據可以導出為 JSON、XML 等。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
Portia:可視化爬取網頁內容。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
newspaper:提取新聞、文章以及內容分析。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
python-goose:java 寫的文章提取工具。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
cola:一個分布式爬蟲框架。項目整體設計有點糟,模塊間耦合度較高。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
Web框架庫8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
flask:輕量級的 web 服務程序,簡單,易用,靈活,主要來做一些 API 服務。做代理時可能會用到。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
django:一個 web 服務器框架,提供了一個完整的后臺管理,引擎、接口等,使用它可做一個完整網站。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺
更多Python知識請關注Python自學網。8Uu少兒編程網-Scratch_Python_教程_免費兒童編程學習平臺

- 上一篇
mac怎么執行python文件?
簡介Mac執行python文件的方法:以如下test.py文件為例來看一下在Mac中如何執行python文件。執行方法:方法一:1、打開mac終端,進入test.py文件保存目錄2、使用pythontest.py命令執行python文件方法二:1、進入ipythonshell模式:2、將文件名傳給%ru
- 下一篇
剖析Python垃圾回收機制
簡介python教程欄目今天來剖析Python垃圾回收機制!1、垃圾回收引用計數器為主、分代碼回收和標記清除為輔1.1大管家refchain在Python的C源碼中有一個名為refchain的環狀雙向鏈表,這個鏈表比較牛逼了,因為Python程序中一旦創建對象都會把這個對象添加到refchain這個鏈表