Go爬蟲(http、goquery和colly)詳解

更新時間：2022年09月05日 15:08:03 作者：Golang-Study

goquery可以避免操作復雜的正則表達式，它可以直接根據(jù)url獲取一個Document對象，然后根據(jù)標簽選擇器、類選擇器和id選擇器獲取相應的選擇對象，進行自定義的操作，這篇文章主要介紹了Go爬蟲(http、goquery和colly),需要的朋友可以參考下

1、net/http爬蟲

net/http配合正則表達式爬蟲。

package main

import (
	"fmt"
	"io/ioutil"
	"log"
	"net/http"
	"os"
	"regexp"
	"strings"
	"sync"
)

// 負責抓取頁面的源代碼(html)
// 通過http包實現(xiàn)
func fetch(url string) string {

	// 得到一個客戶端
	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	request.Header.Set("User-Agent", "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36")
	request.Header.Add("Cookie", "test_cookie=CheckForPermission; expires=Tue, 30-Aug-2022 01:04:32 GMT; path=/; domain=.doubleclick.net; Secure; HttpOnly; SameSite=none")

	// 客戶端發(fā)送請求，并且獲取一個響應
	response, err := client.Do(request)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 如果狀態(tài)碼不是200，就是響應錯誤
	if response.StatusCode != 200 {
		log.Println("Error: ", response.StatusCode)
		return ""
	}

	defer response.Body.Close() // 關閉

	// 讀取響應體中的所有數(shù)據(jù)到body中，這就是需要的部分
	body, err := ioutil.ReadAll(response.Body)
	if err != nil {
		log.Println("Error: ", err)
		return ""
	}

	// 轉(zhuǎn)換為字符串(字節(jié)切片 --> 字符串)
	return string(body)
}

var waitGroup sync.WaitGroup

// 解析頁面源代碼
func parseURL(body string) {

	// 將body(響應結(jié)果)中的換行替換掉，防止正則匹配出錯
	html := strings.Replace(body, "\n", "", -1)
	// 正則匹配
	re_Img_div := regexp.MustCompile(`<div class="img_wrapper">(.*?)</div>`)

	img_div := re_Img_div.FindAllString(html, -1) // 得到<div><img/></div>

	for _, v := range img_div {

		// img正則
		re_link := regexp.MustCompile(`src="(.*?)"`)
		// 找到所有的圖片鏈接
		links := re_link.FindAllString(v, -1) // 得到所有圖片鏈接

		// 遍歷links，切掉不必要的部分src="和最后的"
		for _, v := range links {

			src := v[5 : len(v)-1]
			src = "http:" + src

			waitGroup.Add(1)
			go downLoad(src)
		}
	}

}

// 下載
func downLoad(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		waitGroup.Done()
	}()
}

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	body := fetch(url)
	// fmt.Println(body)
	parseURL(body)

	waitGroup.Wait()
}

2、goquery庫爬蟲

goquery可以避免操作復雜的正則表達式，它可以直接根據(jù)url獲取一個Document對象，然后根據(jù)標簽選擇器、類選擇器和id選擇器獲取相應的選擇對象，進行自定義的操作。

goquery可以靈活的獲取頁面中的元素。

*** 一個簡單的例子，引出goquery中的重要API

package main

import (
	"fmt"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對象借助類選擇器獲取Selection對象，通過Each遍歷所有的適配類選擇器的對象
	// Each的參數(shù)是一個函數(shù)，里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			text = "http:" + text
			fmt.Println(text)
		}

	})
}

*** 操作一、獲取html整個原文檔

分別是goquery.NewDocument(url string)、goquery.NewDocumentFromResponse(*http.Response)、goquery.NewDocumentFromReader(*io.Reader)。三種方式的第一種比較最為方便使用。

package main

import (
	"log"
	"net/http"
	"strings"

	"github.com/PuerkitoBio/goquery"
)

/*
	goquery得到Document對象的3種方式
*/

// 1、通過NewDocument傳入一個URL地址
func GetDocument_1(url string) string {

	document, _ := goquery.NewDocument(url)

	document.Find("href")

	return "document.Text()"
}

// 2、通過響應獲取。第一種方式是第二種方式的封裝
func GetDocument_2(url string) string {

	client := &http.Client{}
	request, _ := http.NewRequest("GET", url, nil)

	response, _ := client.Do(request)
	document, err := goquery.NewDocumentFromResponse(response)

	if err != nil {
		log.Fatalln(err)
	}
	document.Find("")

	return ""
}

// 3、有一個html文本的情況下，讀取轉(zhuǎn)換為Document對象
func GetDocument_3(html string) string {

	document, _ := goquery.NewDocumentFromReader(strings.NewReader(html))
	document.Find("")

	return ""
}

*** 操作二、選擇器
同html的標識方式，在Find函數(shù)中。

*** 操作三、Selection相關方法

*** 最后來完成net/http中的網(wǎng)頁爬蟲

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/PuerkitoBio/goquery"
)

var lock sync.WaitGroup

func main() {

	url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"

	// 得到頁面原文檔對象
	d, _ := goquery.NewDocument(url)

	// 根據(jù)文檔對象借助類選擇器獲取Selection對象，通過Each遍歷所有的適配類選擇器的對象
	// Each的參數(shù)是一個函數(shù)，里面是處理邏輯
	d.Find("img").Each(func(index int, s *goquery.Selection) {

		// 根據(jù)屬性名獲取屬性值   一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
		text, _ := s.Attr("src")

		// 只處理gif動態(tài)圖片
		if strings.HasSuffix(text, ".gif") {
			lock.Add(1)

			http := "http:" + text

			// 得到圖片地址，開啟協(xié)程下載圖片
			go downLoading(http)
		}

	})

	lock.Wait()
}

func downLoading(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		lock.Done()
	}()
}

3、colly框架爬蟲

首先要獲取一個*colly.Collector對象；
然后注冊處理函數(shù)OnXxx函數(shù)；
之后就可以訪問url了。

*** OnXxx函數(shù)
主要操作都是由OnXxx函數(shù)的參數(shù)函數(shù)進行處理的

*** 完成圖片的爬取

package main

import (
	"fmt"
	"io/ioutil"
	"net/http"
	"os"
	"strings"
	"sync"

	"github.com/gocolly/colly"
)

var locker sync.WaitGroup

func main() {

	col := colly.NewCollector()

	// 檢測請求
	col.OnRequest(func(req *colly.Request) {
		fmt.Println("檢測一個請求......")
	})

	// 檢測響應
	col.OnResponse(func(r *colly.Response) {
		fmt.Println("檢測一個響應......")
	})

	// 定位img標簽。注冊該函數(shù)，框架內(nèi)部回調(diào)
	col.OnHTML("img", func(elem *colly.HTMLElement) {

		fmt.Println("ONXHTML")

		// 獲取標簽對應屬性的值。
		// 其他對標簽的操作，可以查看對應的API
		http := elem.Attr("src")

		if strings.HasSuffix(http, ".gif") {

			locker.Add(1)

			http := "http:" + http

			go DownLoad(http)
		}
	})

	col.Visit("http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml")

	locker.Wait()
}

func DownLoad(src string) {

	fmt.Println("================================", src)

	// 取一個文件名
	filename := string(src[len(src)-8 : len(src)])
	fmt.Println(filename)

	response, _ := http.Get(src)
	picdata, _ := ioutil.ReadAll(response.Body)

	image, _ := os.Create("./files/" + filename)
	image.Write(picdata)

	defer func() {
		image.Close()
		locker.Done()
	}()
}

到此這篇關于Go爬蟲(http、goquery和colly)的文章就介紹到這了,更多相關Go爬蟲goquery和colly內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

golang交叉編譯詳細
Golang 支持交叉編譯，在一個平臺上生成另一個平臺的可執(zhí)行程序,只需要按照我下面的這個環(huán)境變量表設置對應的環(huán)境變量就可以了，下面文章將對該內(nèi)容做詳細介紹，感興趣的小伙伴可以參考一下
2021-10-10
go語言方法集為類型添加方法示例解析
這篇文章主要為大家介紹了go語言方法集以及為類型添加方法示例解析，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步早日升職加薪
2022-04-04
通過與Java功能上的對比來學習Go語言
這篇文章主要介紹了通過與Java功能上的對比來學習Go語言的相關資料,需要的朋友可以參考下
2023-02-02
golang實現(xiàn)redis的延時消息隊列功能示例
這篇文章主要介紹了golang實現(xiàn)redis的延時消息隊列功能，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-11-11
Go標準庫http?server優(yōu)雅啟動深入理解
這篇文章主要介紹了Go標準庫http?server優(yōu)雅啟動深入理解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進步，早日升職加薪
2024-01-01
詳解Golang中Channel的原理和使用技巧
Channel管道提供了一種機制，它在兩個并發(fā)執(zhí)行的協(xié)程之間進行同步，并通過傳遞與該管道元素類型相符的值來進行通信。本文主要介紹了Channel的原理和使用技巧，需要的可以參考一下
2022-11-11
一文帶你了解Go語言中鎖特性和實現(xiàn)
Go語言中的sync包主要提供的對并發(fā)操作的支持,標志性的工具有cond（條件變量）?once?(原子性)?還有?鎖,本文會主要向大家介紹Go語言中鎖的特性和實現(xiàn),感興趣的可以了解下
2024-03-03
Go語言中的日期與時間用法詳細介紹
Go語言提供了豐富的日期與時間處理函數(shù),涵蓋了從獲取當前時間到格式化、時區(qū)轉(zhuǎn)換、定時器和計時器的功能,這篇文章主要給大家介紹了關于Go語言中日期與時間用法的相關資料,需要的朋友可以參考下
2024-06-06
Go語言中的格式化輸出占位符的用法詳解
在 Go 語言中,格式化輸出是一個非常常用的功能,特別是在處理字符串、數(shù)字和其他數(shù)據(jù)類型時,本文將詳細介紹 Go 語言中常用的格式化占位符及其用法,希望對大家有所幫助
2024-10-10
Go語言封裝一個Cron定時任務管理器
在現(xiàn)代應用中,定時任務是非常常見的需求,無論是用于定時清理數(shù)據(jù),還是定時執(zhí)行系統(tǒng)維護任務,下面我們就來使用Go語言封裝一個Cron定時任務管理器吧
2024-12-12