Golang爬蟲(chóng)及正則表達(dá)式的實(shí)現(xiàn)示例
最近學(xué)習(xí)go,爬取網(wǎng)站數(shù)據(jù)用到正則表達(dá)式,做個(gè)總結(jié);
Go中正則表達(dá)式采用RE2語(yǔ)法(具體是啥咱也不清楚);
字符
- .?——匹配任意字符 e.g: abc. 結(jié)果: abcd,abcx,abc9;
- [] ——匹配括號(hào)中任意一個(gè)字符 e.g: [abc]d 結(jié)果:ad,cd,1d;
- - ——[-]中表示范圍 e.g: [A-Za-z0-9];
- ^?——[^]中表示除括號(hào)中的任意字符 e.g:[^xy]a 結(jié)果:aa,da,不能為xa,ya;
數(shù)量限定
- ??——前面單元匹配0或1次;
- + ——前面單元匹配1或多次;
- * ——前面單元匹配0或多次;
- {,}?——顯示個(gè)數(shù)上下線;e.g : ip地址——[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3};
其他
- \?——轉(zhuǎn)義字符;
- |?——條件或;
- ()?——組成單元 如果字符串本身有括號(hào)"[(] aaa. [)]" ;
方法
//參數(shù)正則字符串,返回值*Regexp str := regexp.MustCompile(string) //參數(shù)要查找的數(shù)據(jù),查找次數(shù)-1為全局,返回值二維數(shù)組,查找出的字符串+正則字符串 var result [][]string = str.FindAllStringSubmatch(data, -1)
爬蟲(chóng)
爬取博客園所有文章閱讀量,評(píng)論,推薦;
package main
import (
"fmt"
"io"
"net/http"
"regexp"
"strconv"
)
var readCount int = 0
var commentCount int = 0
var diggCount int = 0
//http讀取網(wǎng)頁(yè)數(shù)據(jù)寫(xiě)入result返回
func HttpGet(url string) (result string, err error) {
resp, err1 := http.Get(url)
if err1 != nil {
err = err1
return
}
defer resp.Body.Close()
buf := make([]byte, 4096)
for {
n, err2 := resp.Body.Read(buf)
//fmt.Println(url)
if n == 0 {
break
}
if err2 != nil && err2 != io.EOF {
err = err2
return
}
result += string(buf[:n])
}
return result, err
}
//橫向縱向爬取文章標(biāo)題數(shù)據(jù),并累計(jì)數(shù)值
func SpiderPageDB(index int, page chan int) {
url := "https://www.cnblogs.com/littleperilla/default.html?page=" + strconv.Itoa(index)
result, err := HttpGet(url)
if err != nil {
fmt.Println("HttpGet err:", err)
return
}
str := regexp.MustCompile("post-view-count\">閱讀[(](?s:(.*?))[)]</span>")
alls := str.FindAllStringSubmatch(result, -1)
for _, j := range alls {
temp, err := strconv.Atoi(j[1])
if err != nil {
fmt.Println("string2int err:", err)
}
readCount += temp
}
str = regexp.MustCompile("post-comment-count\">評(píng)論[(](?s:(.*?))[)]</span>")
alls = str.FindAllStringSubmatch(result, -1)
for _, j := range alls {
temp, err := strconv.Atoi(j[1])
if err != nil {
fmt.Println("string2int err:", err)
}
commentCount += temp
}
str = regexp.MustCompile("post-digg-count\">推薦[(](?s:(.*?))[)]</span>")
alls = str.FindAllStringSubmatch(result, -1)
for _, j := range alls {
temp, err := strconv.Atoi(j[1])
if err != nil {
fmt.Println("string2int err:", err)
}
diggCount += temp
}
page <- index
}
//主要工作方法
func working(start, end int) {
fmt.Printf("正在從%d到%d爬取中...\n", start, end)
//channel通知主線程是否所有g(shù)o都結(jié)束
page := make(chan int)
//多線程go程同時(shí)爬取
for i := start; i <= end; i++ {
go SpiderPageDB(i, page)
}
for i := start; i <= end; i++ {
fmt.Printf("拉取到%d頁(yè)\n", <-page)
}
}
//入口函數(shù)
func main() {
//輸入爬取的起始頁(yè)
var start, end int
fmt.Print("startPos:")
fmt.Scan(&start)
fmt.Print("endPos:")
fmt.Scan(&end)
working(start, end)
fmt.Println("閱讀:", readCount)
fmt.Println("評(píng)論:", commentCount)
fmt.Println("推薦:", diggCount)
}

補(bǔ)充:正則表達(dá)式加golang爬蟲(chóng)爬取經(jīng)典案例豆瓣top250
package main
import (
"fmt"
"io"
"net/http"
"os"
"regexp"
"strconv"
)
func savToFile(index int, filmName, filmScore [][]string) {
f, err := os.Create("第" + strconv.Itoa(index) + "頁(yè).txt")
if err != nil {
fmt.Println("os create err", err)
return
}
defer f.Close()
// 查出有多少條
n := len(filmName)
// 先寫(xiě)抬頭 名稱 評(píng)分
f.WriteString("電影名稱" + "\t\t\t" + "評(píng)分" + "\n")
for i := 0; i < n; i++ {
f.WriteString(filmName[i][1] + "\t\t\t" + filmScore[i][1] + "\n")
}
}
func main() {
var start, end int
fmt.Print("請(qǐng)輸入要爬取的起始頁(yè)")
fmt.Scan(&start)
fmt.Print("請(qǐng)輸入要爬取的終止頁(yè)")
fmt.Scan(&end)
working(start, end)
}
func working(start int, end int) {
fmt.Printf("正在爬取%d到%d頁(yè)", start, end)
for i := start; i <= end; i++ {
SpiderPage(i)
}
}
// 爬取一個(gè)豆瓣頁(yè)面數(shù)據(jù)信息保存到文檔
func SpiderPage(index int) {
// 獲取url
url := "https://movie.douban.com/top250?start=" + strconv.Itoa((index-1)*25) + "&filter="
// 爬取url對(duì)應(yīng)頁(yè)面
result, err := HttpGet(url)
if err != nil {
fmt.Println("httpget err", err)
return
}
//fmt.Println("result=", result)
// 解析,編譯正則表達(dá)式 ---電影名稱
ret := regexp.MustCompile(`<img width="100" alt="(?s:(.*?))"`)
filmName := ret.FindAllStringSubmatch(result, -1)
for _, name := range filmName {
fmt.Println("name", name[1])
}
ret2 := regexp.MustCompile(`<span class="rating_num" property="v:average">(?s:(.*?))<`)
filmScore := ret2.FindAllStringSubmatch(result, -1)
for _, score := range filmScore {
fmt.Println("score", score[1])
}
savToFile(index, filmName, filmScore)
}
// 爬取指定url頁(yè)面,返回result
func HttpGet(url string) (result string, err error) {
req, _ := http.NewRequest("GET", url, nil)
// 設(shè)置頭部信息
req.Header.Set("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36 OPR/66.0.3515.115")
resp, err1 := (&http.Client{}).Do(req)
//resp, err1 := http.Get(url) //此方法已經(jīng)被豆瓣視為爬蟲(chóng),返回狀態(tài)嗎為418,所以必須偽裝頭部用上述辦法
if err1 != nil {
err = err1
return
}
defer resp.Body.Close()
buf := make([]byte, 4096)
//循環(huán)爬取整頁(yè)數(shù)據(jù)
for {
n, err2 := resp.Body.Read(buf)
if n == 0 {
break
}
if err2 != nil && err2 != io.EOF {
err = err2
return
}
result += string(buf[:n])
}
return
}
到此這篇關(guān)于Golang爬蟲(chóng)及正則表達(dá)式的實(shí)現(xiàn)示例的文章就介紹到這了,更多相關(guān)Golang爬蟲(chóng)及正則表達(dá)式 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Golang的循環(huán)語(yǔ)句和循環(huán)控制語(yǔ)句詳解
循環(huán)語(yǔ)句為了簡(jiǎn)化程序中有規(guī)律的重復(fù)性操作,需要用到循環(huán)語(yǔ)句,和其他大多數(shù)編程語(yǔ)言一樣,GO的循環(huán)語(yǔ)句有for循環(huán),不同的是沒(méi)有while循環(huán),而循環(huán)控制語(yǔ)句可以改變循環(huán)語(yǔ)句的執(zhí)行過(guò)程,下面給大家介紹下go循環(huán)語(yǔ)句和循環(huán)控制語(yǔ)句的相關(guān)知識(shí),一起看看吧2021-11-11
Go的固定時(shí)長(zhǎng)定時(shí)器和周期性時(shí)長(zhǎng)定時(shí)器
本文主要介紹了Go的固定時(shí)長(zhǎng)定時(shí)器和周期性時(shí)長(zhǎng)定時(shí)器,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08
Go 庫(kù)bytes.Buffer和strings.Builder使用及性能對(duì)比
這篇文章主要為大家介紹了Go 庫(kù)bytes.Buffer和strings.Builder使用及性能對(duì)比,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-12-12
Golang協(xié)程池gopool設(shè)計(jì)與實(shí)現(xiàn)
本文主要介紹了Golang協(xié)程池gopool設(shè)計(jì)與實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-04-04
Go語(yǔ)言設(shè)置JSON的默認(rèn)值操作
這篇文章主要介紹了Go語(yǔ)言設(shè)置JSON的默認(rèn)值操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-12-12
golang?使用sort.slice包實(shí)現(xiàn)對(duì)象list排序
這篇文章主要介紹了golang?使用sort.slice包實(shí)現(xiàn)對(duì)象list排序,對(duì)比sort跟slice兩種排序的使用方式區(qū)別展開(kāi)內(nèi)容,需要的小伙伴可以參考一下2022-03-03

