Python爬取愛奇藝電影信息代碼實例
這篇文章主要介紹了Python爬取愛奇藝電影信息代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
一,使用庫
1.requests
2.re
3.json
二,抓取html文件
def get_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
三,解析html文件
我們需要的電影信息的部分如下圖(評分,片名,主演):

抓取到的html文件對應(yīng)的代碼:

可以分析出,每部電影的信息都在一個<li>標(biāo)簽內(nèi),用正則表達式解析:
def parse_page(html):
pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
items = re.findall(pattern, html)
for item in items:#轉(zhuǎn)換為字典形式保存
yield {
'score': item[0],
'name': item[1],
'actor': item[2].strip()[3:]#將‘主演:'去掉
}
四,寫入文件
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8')as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')#將字典格式轉(zhuǎn)換為字符串加以保存,并設(shè)置中文格式
f.close()
五,調(diào)用函數(shù)
def main():
url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
html = get_page(url)
for item in parse_page(html):
print(item)
write_to_file(item)
六,運行結(jié)果


七,完整代碼
import json
import requests
import re
# 抓取html文件
# 解析html文件
# 存儲文件
def get_page(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
return None
def parse_page(html):
pattern = re.compile('<li.*?qy-mod-li.*?text-score">(.*?)<.*?title.*?>(.*?)<.*?title.*?>(.*?)<', re.S)
items = re.findall(pattern, html)
for item in items:
yield {
'score': item[0],
'name': item[1],
'actor': item[2].strip()[3:]
}
def write_to_file(content):
with open('result.txt', 'a', encoding='utf-8')as f:
f.write(json.dumps(content, ensure_ascii=False) + '\n')
f.close()
def main():
url = 'https://list.iqiyi.com/www/1/-------------8-1-1-iqiyi--.html'
html = get_page(url)
for item in parse_page(html):
print(item)
write_to_file(item)
if __name__ == '__main__':
main()
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- Python爬蟲入門教程01之爬取豆瓣Top電影
- python使用re模塊爬取豆瓣Top250電影
- 用Python 爬取貓眼電影數(shù)據(jù)分析《無名之輩》
- Python利用Scrapy框架爬取豆瓣電影示例
- Python實現(xiàn)的爬取豆瓣電影信息功能案例
- python實現(xiàn)的爬取電影下載鏈接功能示例
- Python使用mongodb保存爬取豆瓣電影的數(shù)據(jù)過程解析
- 詳解Python爬取并下載《電影天堂》3千多部電影
- Python爬蟲——爬取豆瓣電影Top250代碼實例
- python使用BeautifulSoup與正則表達式爬取時光網(wǎng)不同地區(qū)top100電影并對比
- python使用requests模塊實現(xiàn)爬取電影天堂最新電影信息
- 一個簡單的python爬蟲程序 爬取豆瓣熱度Top100以內(nèi)的電影信息
- python正則表達式爬取貓眼電影top100
- 教你怎么用python爬取愛奇藝熱門電影
相關(guān)文章
Python實現(xiàn)遍歷數(shù)據(jù)庫并獲取key的值
本文給大家分享的是Python實現(xiàn)遍歷數(shù)據(jù)庫并獲取key的值的方法,主要是使用for循環(huán)來實現(xiàn),有需要的小伙伴可以參考下。2015-05-05
python2和python3應(yīng)該學(xué)哪個(python3.6與python3.7的選擇)
許多剛?cè)腴T Python 的朋友都在糾結(jié)的的問題是:我應(yīng)該選擇學(xué)習(xí) python2 還是 python3,Python 3.7 已經(jīng)發(fā)布了,目前Python的用戶,主要使用的版本 應(yīng)該是 Python3.6 和 Python2.7 ,那么是不是該轉(zhuǎn)到 Python 3.7 呢2019-10-10
Python運維之獲取系統(tǒng)CPU信息的實現(xiàn)方法
今天小編就為大家分享一篇Python運維之獲取系統(tǒng)CPU信息的實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
python基于tkinter制作無損音樂下載工具(附源碼)
這篇文章主要介紹了python基于tkinter制作無損音樂下載工具(附源碼),幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-03-03
Python輸出漢字字庫及將文字轉(zhuǎn)換為圖片的方法
這篇文章主要介紹了Python輸出漢字字庫及將文字轉(zhuǎn)換為圖片的方法,分別用到了codecs模塊和pygame模塊,需要的朋友可以參考下2016-06-06
python基于tkinter圖形化編程實現(xiàn)簡易計算器功能
這篇文章主要為大家詳細介紹了python基于tkinter圖形化編程實現(xiàn)簡易計算器功能,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2022-07-07

