在上一篇文章《神器!五分鐘完成大型爬蟲項目!》,我們介紹了一個類似于 Scrapy 的開源爬蟲框架——feapder,并著重介紹了該框架的一種應用——AirSpider,它是一個輕量級的爬蟲 。
接下來我們再來介紹另一種爬蟲應用——Spider,它是是一款基于 redis 的分布式爬蟲,適用于海量數據采集,支持斷點續爬、爬蟲報警、數據自動入庫等功能 。
安裝 和 AirSpider 一樣,我們也是通過命令行安裝 。
由于 Spider 是分布式爬蟲,可能涉及到多個爬蟲,所以最好以項目的方式來創建 。
創建項目 我們首先來創建項目:
feapder create -p spider-project創建的項目目錄是這樣的:
創建好項目后,開發時我們需要將項目設置為工作區間,否則引入非同級目錄下的文件時,編譯器會報錯 。
設置工作區間方式(以pycharm為例):項目->右鍵->Mark Directory as -> Sources Root 。
創建爬蟲 創建爬蟲的命令行語句為:
feapder create -sAirSpider 對應的 spider_type 值為 1Spider 對應的 spider_type 值為 2BatchSpider 對應的 spider_type 值為 3默認 spider_type 值為 1 。
所以創建 Spider 的語句為:
feapder create -s spider_test 2運行語句后,我們可以看到在 spiders 目錄下生成了 spider_test.py 文件 。
對應的文件內容為:
im
猜你喜歡
- 為什么Python的受歡迎程度可能超過Java
- 手機萬能工具箱軟件推薦 超級文件粉碎機怎么樣
- 平安智悅人生買三年退保 平安萬能險怎么退保最合算
- 萬能的小學英語chant 英語chant
- 語文作文萬能套路 寫作文的技巧和方法
- 萬能條形碼生成器使用方法 條形碼生成工具有哪些
- 萬能檢討書模板 檢討書500字反省自己
- 手機上文件修改器軟件使用方法 萬能軟件修改器
- atompython運行插件 atom常用插件vue
- 支付寶螞蟻莊園小雞問答 支付寶必出萬能福方法 2021支付寶壓歲錢萬能福獲取方式-游俠手游
