Python爬取12306車次信息代碼詳解
更新時間:2020年08月12日 11:49:53 作者:悄悄成長
這篇文章主要介紹了Python爬取12306車次信息代碼詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
詳情查看下面的代碼:
如果被識別就要添加一個cookie如果沒有被識別的話就要一個user—agent就好了。如果出現(xiàn)亂碼就設(shè)置編碼格式為utf-8
#靜態(tài)的數(shù)據(jù)一般在elements中(復制文字到sources按ctrl+f搜索。找到的為靜態(tài)),而動態(tài)去network中去尋找相關(guān)的信息
import requests
import re
def send_request():
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
,'Cookie':'_uab_collina=159618052151589201474313; JSESSIONID=D33C89D8BEC6A692C79CFA69FC0B0D29; BIGipServerotn=233832970.24610.0000; BIGipServerpool_passport=216859146.50215.0000; RAIL_EXPIRATION=1596443951465; RAIL_DEVICEID=nMo94O2Z21cXLblW7otLoxUZ_LP9Q01PYj_I89OqU6MqjxyX9814Jc3CH5TNwgBVJqnBaBG8OGiBWo2QtNcu5wVu-asNk6YLa49g0fMwVp03XFJQ-GkhHYHcqIgUd-nqQB_VEdWH1Om_D2yAgIu8QcEavt02pmH5; route=c5c62a339e7744272a54643b3be5bf64; _jc_save_fromStation=%u5317%u4EAC%2CBJP; _jc_save_toStation=%u5929%u6D25%2CTJP; _jc_save_fromDate=2020-07-31; _jc_save_toDate=2020-07-31; _jc_save_wfdc_flag=dc'}#創(chuàng)建頭部信息
url='https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2020-07-31&leftTicketDTO.from_station=BJP&leftTicketDTO.to_station=TJP&purpose_codes=ADULT'
#設(shè)置編碼格式。防止亂碼
resp=requests.get(url,headers=headers)
resp.encoding='utf-8'
return resp
#解析數(shù)據(jù)
#{}是字典。根據(jù)key獲取值。
def parse_json(resp,city):
json_ticket=resp.json()#將相應(yīng)的數(shù)據(jù)轉(zhuǎn)換為json
data_list=json_ticket['data']['result']#得到車次的列表
lst=[]#列表
for item in data_list:
#遍歷車次信息進行分割
d=item.split('|')
lst.append([d[3],city[d[6]],city[d[7]],d[31],d[30],d[13]])
return lst
'''
d[3]從列表中獲取索引為3的表示車次
d[6]查詢起始站
d[7]查詢到達站
d[31]一等座
d[30]表示二等座
d[13]表示出行時間'''
#獲得station_name的信息
def get_city():
url='https://kyfw.12306.cn/otn/resources/js/framework/station_name.js?station_version=1.9151'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}
resp=requests.get(url,headers=headers)
resp.encoding='utf-8'
#進行數(shù)據(jù)的提取(只要一部分)
stations=re.findall('([\u4e00-\u9fa5]+)\|([A-Z]+)',resp.text)
#將列表進行轉(zhuǎn)換為字典
stations_data=dict(stations)
#key與value進行互換
station_d={}#空字典。用于完成上述操作
for item in stations_data:
station_d[stations_data[item]]=item
#print(station_d)
return station_d
def start():
lst=parse_json(send_request(),get_city())
#進行數(shù)據(jù)的篩選(得到有效的數(shù)據(jù))
for i in lst:
if i[3]!='無' and i[3]!='':
print(i)
if __name__=='__main__':
start() #開始
運行的截圖:

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python OpenCV實現(xiàn)基于模板的圖像拼接
基于特征點的圖像拼接如果是多張圖,每次計算變換矩陣,都有誤差,最后可以圖像拼完就變形很大,基于模板的方法可以很好的解決這一問題,本文就來和大家具體聊聊2022-10-10
Python matplotlib繪制圖形實例(包括點,曲線,注釋和箭頭)
這篇文章主要介紹了Python matplotlib繪制圖形實例(包括點,曲線,注釋和箭頭),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Python分析特征數(shù)據(jù)類別與預處理方法速學
這篇文章主要為大家介紹了Python分析特征數(shù)據(jù)類別與預處理方法速學,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-02-02
python GUI庫圖形界面開發(fā)之PyQt5復選框控件QCheckBox詳細使用方法與實例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5復選框控件QCheckBox詳細使用方法與實例,需要的朋友可以參考下2020-02-02
Python中實現(xiàn)定時任務(wù)常見的幾種方式
在Python中,實現(xiàn)定時任務(wù)是一個常見的需求,無論是在自動化腳本、數(shù)據(jù)處理、系統(tǒng)監(jiān)控還是其他許多應(yīng)用場景中,Python提供了多種方法來實現(xiàn)定時任務(wù),包括使用標準庫、第三方庫以及系統(tǒng)級別的工具,本文將詳細介紹幾種常見的Python定時任務(wù)實現(xiàn)方式2024-08-08
pytorch中tensorboard安裝及安裝過程中出現(xiàn)的常見錯誤問題
這篇文章主要介紹了pytorch中tensorboard安裝及安裝過程中出現(xiàn)的常見錯誤問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-09-09

