ChatGPT 幫我自動(dòng)編寫 Python 爬蟲(chóng)腳本的詳細(xì)過(guò)程
都知道最近ChatGPT聊天機(jī)器人爆火,我也想方設(shè)法注冊(cè)了賬號(hào),據(jù)說(shuō)后面要收費(fèi)了。
ChatGPT是一種基于大語(yǔ)言模型的生成式AI,換句話說(shuō)它可以自動(dòng)生成類似人類語(yǔ)言的文本,把梳理好的有邏輯的答案呈現(xiàn)在你面前,這完全不同于傳統(tǒng)搜索工具。
ChatGPT不光可以回答人文、科學(xué)、情感等傳統(tǒng)問(wèn)題,還可以寫代碼、改bug,程序員可就急了,簡(jiǎn)直是在搶飯碗,所以網(wǎng)上出現(xiàn)各種ChatGPT讓你失業(yè)的焦慮言論。
俗話說(shuō)“百聞不如一見(jiàn)”,我試著讓ChatGPT用Python去寫爬蟲(chóng)腳本,看它到底行不行?
1、爬取知乎上的專欄文章
提問(wèn):
幫我用python寫代碼爬取網(wǎng)站
ChatGPT:

把給到的代碼放進(jìn)PyCharm中跑一遍,發(fā)現(xiàn)沒(méi)有報(bào)錯(cuò),且打印出了內(nèi)容。
import requests
from bs4 import BeautifulSoup
url = "https://zhuanlan.zhihu.com/p/595050104"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
title = soup.find("h1", class_="Post-Title").text.strip()
body = soup.find("div", class_="Post-RichText").text.strip()
print("Title:", title)
print("Body:", body)
雖然說(shuō)ChatGPT給出的代碼可以執(zhí)行,但它也提到由于爬取的網(wǎng)站會(huì)隨時(shí)變更,也就是HTML會(huì)變動(dòng),所以代碼可能需要調(diào)整才能正常工作。
凡是寫過(guò)爬蟲(chóng)的同學(xué)應(yīng)該都能理解,人工寫的爬蟲(chóng)代碼也沒(méi)法一勞永逸,需要隨時(shí)改。
這一點(diǎn)ChatGPT提示的很有道理。
后來(lái)我測(cè)試了medium、百家號(hào)上的文章,ChatGPT提供的代碼形式幾乎和上面一致,沒(méi)法直接執(zhí)行獲取結(jié)果,需要微調(diào)后才能跑。
2. 爬取京東某商品的評(píng)論
為了給ChatGPT增加難度,我試著讓它去爬取某電商網(wǎng)站的用戶評(píng)論
提問(wèn):
請(qǐng)用python寫代碼爬取這個(gè)京東商品的所有用戶評(píng)論 https://item.jd.com/13652780.html
ChatGPT:

可能這個(gè)網(wǎng)頁(yè)是動(dòng)態(tài)頁(yè)面,ChatGPT提供的方法并不能爬取評(píng)論。
我接著問(wèn):
爬取的結(jié)果是空值怎么辦?
ChatGPT:
[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-nnDP8sph-1676473447460)(null)]
ChatGPT提供了3種可能存在的原因,但并沒(méi)有幫我修改代碼。
于是我又問(wèn):
還是空值 請(qǐng)幫我重新寫代碼爬取
ChatGPT:

這次就牛掰了,它重新用Selenium寫了爬蟲(chóng)代碼,并告訴我爬取動(dòng)態(tài)網(wǎng)頁(yè)需要模擬瀏覽器行為,因此得用selenium技術(shù)。
我沒(méi)有運(yùn)行去測(cè)試代碼正確與否,但ChatGPT確實(shí)驚艷到我了,能夠前后關(guān)聯(lián)對(duì)話內(nèi)容,并給出正確的解決方法。
3.繼續(xù)更多的測(cè)試
上面只是蜻蜓點(diǎn)水的玩玩,ChatGPT就已經(jīng)吸引到我,
我準(zhǔn)備多花時(shí)間去測(cè)試ChatGPT應(yīng)對(duì)各種爬蟲(chóng)的解決方案,以及它對(duì)bug的修復(fù)能力。
僅僅從寫代碼層面看,ChatGPT已經(jīng)可以媲美中高級(jí)程序員的水平了,而且它的知識(shí)范疇遠(yuǎn)超人類最厲害的程序員
ChatGPT能夠根據(jù)對(duì)話生成人想要的內(nèi)容,這是AI巨大的突破,未來(lái)它的應(yīng)用之廣難以想象。
到此這篇關(guān)于ChatGPT 幫我自動(dòng)編寫 Python 爬蟲(chóng)腳本的文章就介紹到這了,更多相關(guān)ChatGPT自動(dòng)編寫 Python 爬蟲(chóng)腳本內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
OpenCV圖像識(shí)別之相機(jī)校準(zhǔn)Camera?Calibration學(xué)習(xí)
這篇文章主要為大家介紹了OpenCV圖像識(shí)別之相機(jī)校準(zhǔn)Camera?Calibration學(xué)習(xí),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-05-05
Python打包exe時(shí)各種異常處理方案總結(jié)
今天教大家用Python打包exe時(shí)各種異常處理的方案總結(jié),下文中有非常詳細(xì)的介紹,對(duì)正在學(xué)習(xí)python的小伙伴們很有幫助喲,需要的朋友可以參考下2021-05-05
Python開(kāi)發(fā)的實(shí)用計(jì)算器完整實(shí)例
這篇文章主要介紹了Python開(kāi)發(fā)的實(shí)用計(jì)算器,結(jié)合完整實(shí)例形式分析了Python實(shí)現(xiàn)計(jì)算器四則運(yùn)算、開(kāi)方、取余等相關(guān)操作技巧,需要的朋友可以參考下2017-05-05
Python加密方法小結(jié)【md5,base64,sha1】
這篇文章主要介紹了Python加密方法,結(jié)合實(shí)例形式總結(jié)分析了md5,base64,sha1的簡(jiǎn)單加密方法,需要的朋友可以參考下2017-07-07
Python監(jiān)聽(tīng)鍵盤和鼠標(biāo)事件的示例代碼
這篇文章主要介紹了Python監(jiān)聽(tīng)鍵盤和鼠標(biāo)事件的示例代碼,幫助大家更好的理解和使用python,提高辦公效率,感興趣的朋友可以了解下2020-11-11
Pandas?DataFrame數(shù)據(jù)修改值的方法
本文主要介紹了Pandas?DataFrame修改值,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-03-03
python接口測(cè)試對(duì)修改密碼接口進(jìn)行壓測(cè)
這篇文章主要為大家介紹了python接口測(cè)試對(duì)修改密碼接口進(jìn)行壓測(cè)的腳本實(shí)現(xiàn),有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-07-07
pytest解讀fixture有效性及跨文件共享fixtures
這篇文章主要為大家介紹了pytest官方文檔fixture有效性及跨文件共享fixtures的解讀,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-06-06
pycharm之英文輸入法變成全角字符無(wú)法輸入問(wèn)題
這篇文章主要介紹了pycharm之英文輸入法變成全角字符無(wú)法輸入問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-11-11

