Python基于pandas爬取網(wǎng)頁表格數(shù)據(jù)
以網(wǎng)頁表格為例:https://www.kuaidaili.com/free/
該網(wǎng)站數(shù)據(jù)存在table標(biāo)簽,直接用requests,需要結(jié)合bs4解析正則/xpath/lxml等,沒有幾行代碼是搞不定的。
今天介紹的黑科技是pandas自帶爬蟲功能,pd.read_html(),只需傳人url,一行代碼搞定。
原網(wǎng)頁結(jié)構(gòu)如下:

python代碼如下:
import pandas as pd url='http://www.kuaidaili.com/free/' df=pd.read_html(url)[0] # [0]:表示第一個(gè)table,多個(gè)table需要指定,如果不指定默認(rèn)第一個(gè) # 如果沒有【0】,輸入dataframe格式組成的list df
輸出dataframe格式數(shù)據(jù)


再次保存到本地,csv格式,注意中文編碼:utf_8_sig
print(type(df))df.to_csv('free ip.csv',mode='a', encoding='utf_8_sig', header=1, index=0)print('done!')
查看csv文件

先來了解一下read_html函數(shù)的api:
pandas.read_html(io, match='.+', flavor=None, header=None, index_col=None, skiprows=None, attrs=None, parse_dates=False, tupleize_cols=None, thousands=', ', encoding=None, decimal='.', converters=None, na_values=None, keep_default_na=True, displayed_only=True)
常用的參數(shù):
- io:可以是url、html文本、本地文件等;
- flavor:解析器;
- header:標(biāo)題行;
- skiprows:跳過的行;
- attrs:屬性,比如 attrs = {'id': 'table'};
- parse_dates:解析日期
注意:返回的結(jié)果是**DataFrame**組成的**list**。
若要dataframe,直接取list【0】
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python中的?Numpy?數(shù)組形狀改變及索引切片
這篇文章主要介紹了Python中的?Numpy?數(shù)組形狀改變及索引切片,Numpy提供了一個(gè)reshape()方法,它可以改變數(shù)組的形狀,返回一個(gè)新的數(shù)組,更多相關(guān)內(nèi)容需要的小伙伴可以參考下面文章2022-05-05
Python讀取含url圖片鏈接的txt文檔方法小結(jié)
這篇文章主要為大家詳細(xì)介紹了三種Python讀取含url圖片鏈接的txt文檔方法,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-04-04
Python爬蟲獲取全網(wǎng)招聘數(shù)據(jù)實(shí)現(xiàn)可視化分析示例詳解
這篇文章主要介紹了Python爬蟲獲取全網(wǎng)招聘數(shù)據(jù)實(shí)現(xiàn)可視化分析示例詳解,實(shí)現(xiàn)采集一下最新的qcwu招聘數(shù)據(jù),本文列舉了部分代碼以及實(shí)現(xiàn)思路,需要的朋友可以參考下2023-07-07
Python實(shí)現(xiàn)自動(dòng)化處理Word文檔的方法詳解
本文主要介紹了如何使用Python實(shí)現(xiàn)Word文檔的自動(dòng)化處理,包括批量生成Word文檔、在Word文檔中批量進(jìn)行查找和替換、將Word文檔批量轉(zhuǎn)換成PDF等,希望對(duì)你有所幫助2022-08-08
Python實(shí)現(xiàn)曲線的肘部點(diǎn)檢測(cè)詳解
肘部法則是經(jīng)常使用的法則。很多時(shí)候,可以憑人工經(jīng)驗(yàn)去找最優(yōu)拐點(diǎn),但有時(shí)需要自動(dòng)尋找拐點(diǎn)。本文為大家介紹了Python實(shí)現(xiàn)曲線的肘部點(diǎn)檢測(cè)的方法,希望對(duì)大家有所幫助2023-02-02
C語言實(shí)現(xiàn)二叉搜索樹的完整總結(jié)
這篇文章主要介紹了C語言實(shí)現(xiàn)二叉搜索樹的完整總結(jié),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04
keras自定義回調(diào)函數(shù)查看訓(xùn)練的loss和accuracy方式
這篇文章主要介紹了keras自定義回調(diào)函數(shù)查看訓(xùn)練的loss和accuracy方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-05-05

