Python爬蟲部分開篇概念講解
在學習Python爬蟲部分,需要你已經學過Python基礎和前端的相關知識。
開發(fā)環(huán)境介紹:
- window10 操作系統(tǒng)
- Python解釋器3.8
- 集成開發(fā)環(huán)境pycharm
數(shù)據(jù)的來源及作用
數(shù)據(jù)的來源有哪些?
- 用戶產生的數(shù)據(jù): 百度指數(shù)
- 政府統(tǒng)計的數(shù)據(jù): 政府數(shù)據(jù)
- 數(shù)據(jù)管理公司: 聚合數(shù)據(jù)
- 自己爬取的數(shù)據(jù): 爬取網站上的某些視頻
數(shù)據(jù)的作用
- 數(shù)據(jù)分析
- 智能產品的練習數(shù)據(jù)
- 其他(比如買賣)
爬蟲的相關概念
a) 爬蟲的概念
爬蟲就是應用程序,從網上下載各種各樣的資源。
換句話說就是使用編程語言編寫一個用于爬蟲web或者app的數(shù)據(jù)應用程序。
怎么爬取數(shù)據(jù)呢?
- 找到要爬取的目標網站,發(fā)起請求
- 分析url是如何變化的和提取有用的url
- 提取有用的信息
爬蟲什么數(shù)據(jù)都可以爬嗎?
當然不能,需要遵守一定的規(guī)則和協(xié)議
可以看一下京東的:

有些是允許的,有些是不允許的。
b) 爬蟲分類
- 通用爬蟲
百度等搜索引擎,從一些初始的URL擴展到整個網站,主要為門戶站點搜索引起和大型網站服務采集數(shù)據(jù)
- 聚焦網站爬蟲
主題網絡爬蟲,選擇性爬取根據(jù)需求相關的頁面的網絡爬蟲
- 增量式網絡爬蟲
對已經下載的頁面采取更新知識和只爬新產生的。
c) 爬蟲的原理
- 通用的爬蟲原理

- 聚焦網絡爬蟲原理
d) 各種語言寫爬蟲的對比
- php對多線程,異步支持不是很友好,并發(fā)能力弱。速度和效率低
- java: 代碼量大,而且重構成本比較高,任何改動都會導致大量的改動,而爬蟲需要經常修改采集代碼
- Python: 開發(fā)效率高,代碼簡潔,支持的模塊多,和HTTP請求和html解析模塊非常豐富,還有scrapy,scrapy-redis框架,讓開發(fā)爬蟲更簡單。
到此這篇關于Python爬蟲部分開篇示例講解的文章就介紹到這了,更多相關Python爬蟲部分開篇示例講解內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python+Scipy實現(xiàn)自定義任意的概率分布
Scipy自帶了多種常見的分布,如正態(tài)分布、均勻分布、二項分布、多項分布、伽馬分布等等,還可以自定義任意的概率分布。本文將為大家介紹如何利用Scipy自定義任意的概率分布,感興趣的可以了解下2022-08-08
讓python的Cookie.py模塊支持冒號做key的方法
雖然Cookie的標準是不允許:冒號出現(xiàn)在key里面的,但是我們的開發(fā)人員是很可愛的,常常會讓我們意想不到。2010-12-12

