Go語言并發(fā)爬蟲的具體實(shí)現(xiàn)
寫在前面
這篇文章主要讓大家明白
多線程爬蟲,因?yàn)間o語言實(shí)現(xiàn)并發(fā)是很容易的。
這次的服務(wù)端,是我們之前搭建的電子商城平臺(tái),所以我們不擔(dān)心ip被封之類的問題。
而實(shí)際生產(chǎn)環(huán)境中,其實(shí)我們都是用python爬蟲的。python實(shí)現(xiàn)多線程也很簡(jiǎn)單。
這次我們可以試試新玩法,試試go語言的并發(fā)爬蟲。
主要是爬取第一頁(yè)的商品,爬取十次,比較單線程和多線程的時(shí)間。
1. 單線程爬蟲
?定義一個(gè)用戶
var Client http.Client
主函數(shù)
func main() {
url := "http://localhost:3000/api/v1/products"
start := time.Now()
for i := 0; i < 10; i++ {
Spider(url, i)
}
elapsed := time.Since(start)
fmt.Printf("Time %s", elapsed)
}
爬取函數(shù)
func Spider(url string, i int) {
reqSpider, err := http.NewRequest("GET", url, nil)
if err != nil {
log.Fatal(err)
}
reqSpider.Header.Set("content-length", "0")
reqSpider.Header.Set("accept", "*/*")
reqSpider.Header.Set("x-requested-with", "XMLHttpRequest")
respSpider, err := Client.Do(reqSpider)
if err != nil {
log.Fatal(err)
}
bodyText, _ := ioutil.ReadAll(respSpider.Body)
var result Result
_ = json.Unmarshal(bodyText, &result)
fmt.Println(i,result.Data)
}
運(yùn)行時(shí)間為:651.8207ms

2. 多線程爬蟲
2.1 channel main函數(shù)
我們構(gòu)造一個(gè)無緩沖的通道,來阻塞主進(jìn)程,等待子進(jìn)程的執(zhí)行。
func main() {
url := "http://localhost:3000/api/v1/products"
ch := make(chan bool)
start := time.Now()
for i := 0; i < 10; i++ {
go Spider(url, ch, i)
}
for i := 0; i < 10; i++ {
<-ch
}
elapsed := time.Since(start)
fmt.Printf("Time %s", elapsed)
}
最后記得在爬蟲的結(jié)束的時(shí)候,把值寫入到通道中,不然會(huì)一直阻塞主進(jìn)程

運(yùn)行時(shí)間:187.7921ms 比之前快了非常多。

2.2 sync.WaitGroup
定義一個(gè)進(jìn)程組并加10個(gè)進(jìn)程
var wg sync.WaitGroup wg.Add(10)
開辟十個(gè)goruntime
for i := 0; i < 10; i++ {
go func(i int) {
defer wg.Done()
SpiderWaitGroup(url,i)
}(i)
}
阻塞主進(jìn)程
wg.Wait()
結(jié)果:64.5246ms

3. 源碼地址
GitHub地址:https://github.com/CocaineCong/Go-Spider-Demo
NormalStart(url) // 單線程爬蟲 ChannelStart(url) // Channel多線程爬蟲 WaitGroupStart(url) // Wait 多線程爬蟲
其實(shí)多線程的兩種都差不多的,只是有時(shí)候會(huì)因?yàn)闄C(jī)器的原因而導(dǎo)致一些誤差。

到此這篇關(guān)于Go語言并發(fā)爬蟲的具體實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Go語言并發(fā)爬蟲 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Go語言實(shí)現(xiàn)生產(chǎn)者-消費(fèi)者模式的方法總結(jié)
這篇文章主要介紹了在?Go?語言中實(shí)現(xiàn)生產(chǎn)者消費(fèi)者模式的多種方法,并重點(diǎn)探討了通道、條件變量的適用場(chǎng)景和優(yōu)缺點(diǎn),需要的可參考一下2023-05-05
Go標(biāo)準(zhǔn)庫(kù)strconv實(shí)現(xiàn)string類型與其他基本數(shù)據(jù)類型之間轉(zhuǎn)換
這篇文章主要為大家介紹了Go標(biāo)準(zhǔn)庫(kù)strconv實(shí)現(xiàn)string類型與其他基本數(shù)據(jù)類型之間轉(zhuǎn)換示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-11-11
Golang中實(shí)現(xiàn)類似類與繼承的方法(示例代碼)
這篇文章主要介紹了Golang中實(shí)現(xiàn)類似類與繼承的方法,Go語言中通過方法接受者的類型來決定方法的歸屬和繼承關(guān)系,本文通過示例代碼講解的非常詳細(xì),需要的朋友可以參考下2024-04-04
Go語言使用net/http實(shí)現(xiàn)簡(jiǎn)單登錄驗(yàn)證和文件上傳功能
這篇文章主要介紹了Go語言使用net/http實(shí)現(xiàn)簡(jiǎn)單登錄驗(yàn)證和文件上傳功能,使用net/http模塊編寫了一個(gè)簡(jiǎn)單的登錄驗(yàn)證和文件上傳的功能,在此做個(gè)簡(jiǎn)單記錄,需要的朋友可以參考下2023-07-07
golang 生成二維碼海報(bào)的實(shí)現(xiàn)代碼
這篇文章主要介紹了golang 生成二維碼海報(bào)的實(shí)現(xiàn)代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02

