Go爬蟲(http、goquery和colly)詳解
1、net/http爬蟲
net/http配合正則表達式爬蟲。

package main
import (
"fmt"
"io/ioutil"
"log"
"net/http"
"os"
"regexp"
"strings"
"sync"
)
// 負責抓取頁面的源代碼(html)
// 通過http包實現(xiàn)
func fetch(url string) string {
// 得到一個客戶端
client := &http.Client{}
request, _ := http.NewRequest("GET", url, nil)
request.Header.Set("User-Agent", "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Mobile Safari/537.36")
request.Header.Add("Cookie", "test_cookie=CheckForPermission; expires=Tue, 30-Aug-2022 01:04:32 GMT; path=/; domain=.doubleclick.net; Secure; HttpOnly; SameSite=none")
// 客戶端發(fā)送請求,并且獲取一個響應
response, err := client.Do(request)
if err != nil {
log.Println("Error: ", err)
return ""
}
// 如果狀態(tài)碼不是200,就是響應錯誤
if response.StatusCode != 200 {
log.Println("Error: ", response.StatusCode)
return ""
}
defer response.Body.Close() // 關閉
// 讀取響應體中的所有數(shù)據(jù)到body中,這就是需要的部分
body, err := ioutil.ReadAll(response.Body)
if err != nil {
log.Println("Error: ", err)
return ""
}
// 轉(zhuǎn)換為字符串(字節(jié)切片 --> 字符串)
return string(body)
}
var waitGroup sync.WaitGroup
// 解析頁面源代碼
func parseURL(body string) {
// 將body(響應結(jié)果)中的換行替換掉,防止正則匹配出錯
html := strings.Replace(body, "\n", "", -1)
// 正則匹配
re_Img_div := regexp.MustCompile(`<div class="img_wrapper">(.*?)</div>`)
img_div := re_Img_div.FindAllString(html, -1) // 得到<div><img/></div>
for _, v := range img_div {
// img正則
re_link := regexp.MustCompile(`src="(.*?)"`)
// 找到所有的圖片鏈接
links := re_link.FindAllString(v, -1) // 得到所有圖片鏈接
// 遍歷links,切掉不必要的部分src="和最后的"
for _, v := range links {
src := v[5 : len(v)-1]
src = "http:" + src
waitGroup.Add(1)
go downLoad(src)
}
}
}
// 下載
func downLoad(src string) {
fmt.Println("================================", src)
// 取一個文件名
filename := string(src[len(src)-8 : len(src)])
fmt.Println(filename)
response, _ := http.Get(src)
picdata, _ := ioutil.ReadAll(response.Body)
image, _ := os.Create("./files/" + filename)
image.Write(picdata)
defer func() {
image.Close()
waitGroup.Done()
}()
}
func main() {
url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"
body := fetch(url)
// fmt.Println(body)
parseURL(body)
waitGroup.Wait()
}

2、goquery庫爬蟲
goquery可以避免操作復雜的正則表達式,它可以直接根據(jù)url獲取一個Document對象,然后根據(jù)標簽選擇器、類選擇器和id選擇器獲取相應的選擇對象,進行自定義的操作。
goquery可以靈活的獲取頁面中的元素。
*** 一個簡單的例子,引出goquery中的重要API
package main
import (
"fmt"
"strings"
"github.com/PuerkitoBio/goquery"
)
func main() {
url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"
// 得到頁面原文檔對象
d, _ := goquery.NewDocument(url)
// 根據(jù)文檔對象借助類選擇器獲取Selection對象,通過Each遍歷所有的適配類選擇器的對象
// Each的參數(shù)是一個函數(shù),里面是處理邏輯
d.Find("img").Each(func(index int, s *goquery.Selection) {
// 根據(jù)屬性名獲取屬性值 一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
text, _ := s.Attr("src")
// 只處理gif動態(tài)圖片
if strings.HasSuffix(text, ".gif") {
text = "http:" + text
fmt.Println(text)
}
})
}

*** 操作一、獲取html整個原文檔
分別是goquery.NewDocument(url string)、goquery.NewDocumentFromResponse(*http.Response)、goquery.NewDocumentFromReader(*io.Reader)。三種方式的第一種比較最為方便使用。
package main
import (
"log"
"net/http"
"strings"
"github.com/PuerkitoBio/goquery"
)
/*
goquery得到Document對象的3種方式
*/
// 1、通過NewDocument傳入一個URL地址
func GetDocument_1(url string) string {
document, _ := goquery.NewDocument(url)
document.Find("href")
return "document.Text()"
}
// 2、通過響應獲取。第一種方式是第二種方式的封裝
func GetDocument_2(url string) string {
client := &http.Client{}
request, _ := http.NewRequest("GET", url, nil)
response, _ := client.Do(request)
document, err := goquery.NewDocumentFromResponse(response)
if err != nil {
log.Fatalln(err)
}
document.Find("")
return ""
}
// 3、有一個html文本的情況下,讀取轉(zhuǎn)換為Document對象
func GetDocument_3(html string) string {
document, _ := goquery.NewDocumentFromReader(strings.NewReader(html))
document.Find("")
return ""
}
*** 操作二、選擇器
同html的標識方式,在Find函數(shù)中。
*** 操作三、Selection相關方法

*** 最后來完成net/http中的網(wǎng)頁爬蟲
package main
import (
"fmt"
"io/ioutil"
"net/http"
"os"
"strings"
"sync"
"github.com/PuerkitoBio/goquery"
)
var lock sync.WaitGroup
func main() {
url := "http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml"
// 得到頁面原文檔對象
d, _ := goquery.NewDocument(url)
// 根據(jù)文檔對象借助類選擇器獲取Selection對象,通過Each遍歷所有的適配類選擇器的對象
// Each的參數(shù)是一個函數(shù),里面是處理邏輯
d.Find("img").Each(func(index int, s *goquery.Selection) {
// 根據(jù)屬性名獲取屬性值 一個Selection對象 --> <img src="http://localhost:8080/images" > text </img>
text, _ := s.Attr("src")
// 只處理gif動態(tài)圖片
if strings.HasSuffix(text, ".gif") {
lock.Add(1)
http := "http:" + text
// 得到圖片地址,開啟協(xié)程下載圖片
go downLoading(http)
}
})
lock.Wait()
}
func downLoading(src string) {
fmt.Println("================================", src)
// 取一個文件名
filename := string(src[len(src)-8 : len(src)])
fmt.Println(filename)
response, _ := http.Get(src)
picdata, _ := ioutil.ReadAll(response.Body)
image, _ := os.Create("./files/" + filename)
image.Write(picdata)
defer func() {
image.Close()
lock.Done()
}()
}

3、colly框架爬蟲
首先要獲取一個*colly.Collector對象;
然后注冊處理函數(shù)OnXxx函數(shù);
之后就可以訪問url了。
*** OnXxx函數(shù)
主要操作都是由OnXxx函數(shù)的參數(shù)函數(shù)進行處理的

*** 完成圖片的爬取
package main
import (
"fmt"
"io/ioutil"
"net/http"
"os"
"strings"
"sync"
"github.com/gocolly/colly"
)
var locker sync.WaitGroup
func main() {
col := colly.NewCollector()
// 檢測請求
col.OnRequest(func(req *colly.Request) {
fmt.Println("檢測一個請求......")
})
// 檢測響應
col.OnResponse(func(r *colly.Response) {
fmt.Println("檢測一個響應......")
})
// 定位img標簽。注冊該函數(shù),框架內(nèi)部回調(diào)
col.OnHTML("img", func(elem *colly.HTMLElement) {
fmt.Println("ONXHTML")
// 獲取標簽對應屬性的值。
// 其他對標簽的操作,可以查看對應的API
http := elem.Attr("src")
if strings.HasSuffix(http, ".gif") {
locker.Add(1)
http := "http:" + http
go DownLoad(http)
}
})
col.Visit("http://games.sina.com.cn/t/n/2021-01-15/kftpnnx7445951.shtml")
locker.Wait()
}
func DownLoad(src string) {
fmt.Println("================================", src)
// 取一個文件名
filename := string(src[len(src)-8 : len(src)])
fmt.Println(filename)
response, _ := http.Get(src)
picdata, _ := ioutil.ReadAll(response.Body)
image, _ := os.Create("./files/" + filename)
image.Write(picdata)
defer func() {
image.Close()
locker.Done()
}()
}


到此這篇關于Go爬蟲(http、goquery和colly)的文章就介紹到這了,更多相關Go爬蟲goquery和colly內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
golang實現(xiàn)redis的延時消息隊列功能示例
這篇文章主要介紹了golang實現(xiàn)redis的延時消息隊列功能,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-11-11

