Python爬蟲部分開篇概念講解

更新時間：2021年04月08日 14:40:27 作者：互聯(lián)網老辛

在學習Python爬蟲部分，需要已經學過Python基礎和前端的相關知識，本文對python爬蟲概念及原理給大家詳細介紹，需要的朋友跟隨小編一起看看吧

開發(fā)環(huán)境介紹：

window10 操作系統(tǒng)
Python解釋器3.8
集成開發(fā)環(huán)境pycharm

數(shù)據(jù)的來源及作用

數(shù)據(jù)的來源有哪些？

用戶產生的數(shù)據(jù)：百度指數(shù)
政府統(tǒng)計的數(shù)據(jù)：政府數(shù)據(jù)
數(shù)據(jù)管理公司：聚合數(shù)據(jù)
自己爬取的數(shù)據(jù)：爬取網站上的某些視頻

數(shù)據(jù)的作用

數(shù)據(jù)分析
智能產品的練習數(shù)據(jù)
其他（比如買賣）

爬蟲的相關概念

a) 爬蟲的概念

爬蟲就是應用程序，從網上下載各種各樣的資源。
換句話說就是使用編程語言編寫一個用于爬蟲web或者app的數(shù)據(jù)應用程序。
怎么爬取數(shù)據(jù)呢？

找到要爬取的目標網站，發(fā)起請求
分析url是如何變化的和提取有用的url
提取有用的信息

爬蟲什么數(shù)據(jù)都可以爬嗎？
當然不能，需要遵守一定的規(guī)則和協(xié)議

可以看一下京東的：

在這里插入圖片描述

有些是允許的，有些是不允許的。

b) 爬蟲分類

通用爬蟲

百度等搜索引擎，從一些初始的URL擴展到整個網站，主要為門戶站點搜索引起和大型網站服務采集數(shù)據(jù)

聚焦網站爬蟲

主題網絡爬蟲，選擇性爬取根據(jù)需求相關的頁面的網絡爬蟲

增量式網絡爬蟲

對已經下載的頁面采取更新知識和只爬新產生的。

c) 爬蟲的原理

通用的爬蟲原理

在這里插入圖片描述

聚焦網絡爬蟲原理

在這里插入圖片描述

d) 各種語言寫爬蟲的對比

php對多線程，異步支持不是很友好，并發(fā)能力弱。速度和效率低
java：代碼量大，而且重構成本比較高，任何改動都會導致大量的改動，而爬蟲需要經常修改采集代碼
Python：開發(fā)效率高，代碼簡潔，支持的模塊多，和HTTP請求和html解析模塊非常豐富，還有scrapy,scrapy-redis框架，讓開發(fā)爬蟲更簡單。

到此這篇關于Python爬蟲部分開篇示例講解的文章就介紹到這了,更多相關Python爬蟲部分開篇示例講解內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Scrapy框架介紹之Puppeteer渲染的使用
這篇文章主要介紹了Scrapy框架介紹之Puppeteer渲染的使用，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-06-06
Python編碼時應該注意的幾個情況
對于Python程序員，你需要注意一下本文所提到的這些事情。你也可以看看Zen of Python（Python之禪），這里面提到了一些注意事項，并配以示例，可以幫助你快速提高
2013-03-03
python實現(xiàn)報表自動化詳解
這篇文章主要介紹了python實現(xiàn)報表自動化詳解，涉及python讀，寫excel—xlwt常用功能，xlutils 常用功能，xlwt寫Excel時公式的應用等相關內容，具有一定參考價值，需要的朋友可以了解下。
2017-11-11
Python中實現(xiàn)WebSocket的示例詳解
WebSocket 是一種計算機通信協(xié)議,它為客戶端和服務器之間的雙向通信提供了一個全雙工的通道,本篇文章將詳解 Python 中如何實現(xiàn) WebSocket,感興趣的可以了解下
2025-03-03
python 求某條線上特定x值或y值的點坐標方法
今天小編就為大家分享一篇python 求某條線上特定x值或y值的點坐標方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-07-07
python geemap的安裝步驟及環(huán)境配置
geemap是基于GEE由吳秋生老師二次開發(fā)的一個包，geemap主要使用python來進行實現(xiàn)相關功能，這篇文章主要介紹了geemap的詳細安裝步驟及環(huán)境配置,需要的朋友可以參考下
2022-08-08
pytorch 輸出中間層特征的實例
今天小編就為大家分享一篇pytorch 輸出中間層特征的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-08-08
Python的logging.config模塊操作步驟
這篇文章主要介紹了Python的logging.config模塊操作步驟,本文通過示例代碼給大家介紹的非常詳細對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2023-08-08
Python+Scipy實現(xiàn)自定義任意的概率分布
Scipy自帶了多種常見的分布，如正態(tài)分布、均勻分布、二項分布、多項分布、伽馬分布等等，還可以自定義任意的概率分布。本文將為大家介紹如何利用Scipy自定義任意的概率分布，感興趣的可以了解下
2022-08-08
讓python的Cookie.py模塊支持冒號做key的方法
雖然Cookie的標準是不允許:冒號出現(xiàn)在key里面的，但是我們的開發(fā)人員是很可愛的，常常會讓我們意想不到。
2010-12-12