python語言中pandas字符串分割str.split()函數(shù)
前言
為了介紹python語言中pandas庫在數(shù)據(jù)分析中的重要作用,本人打算以NBA球星勒布朗詹姆斯在2020-2021賽季常規(guī)賽個(gè)人數(shù)據(jù)為例對(duì)pandas相關(guān)函數(shù)進(jìn)行詳細(xì)說明。利用爬蟲技術(shù),在知名籃球網(wǎng)站虎撲爬取了勒布朗詹姆斯的數(shù)據(jù),稍后會(huì)將數(shù)據(jù)上傳至csdn,以供大家下載。
這篇文章,詳細(xì)介紹了pandas字符串分割函數(shù)---str.split()的用法。
DataFrame.str.split(pa,n,expand)
pat:字符串分隔符,默認(rèn)為空格。
n:用于指定需要分割的次數(shù),默認(rèn)為-1。其中,None,0和-1都被解釋為返回所有分割的字符串。
expand:將拆分的字符串展開為單獨(dú)的列,默認(rèn)為False。True:返回DataFrame / MultiIndex;
False:返回包含字符串列表的Series / Index。
1、常規(guī)賽數(shù)據(jù)格式
勒布朗詹姆斯2020-2021賽季常規(guī)賽個(gè)人數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)如下:
| 日期 | 對(duì)手 | 比分 | 時(shí)間 | 投籃 | ... |
| 05/17 | 鵜鶘 | 110-98(勝) | 27 | 11-22 | ... |
| 05/16 | 步行者 | 122-115(勝) | 28 | 11-22 | ... |
| ... | ... | ... | ... | ... | ... |
2、計(jì)算詹姆斯常規(guī)賽命中率
勒布朗詹姆斯2020-2021賽季常規(guī)賽個(gè)人數(shù)據(jù)中只有每場(chǎng)比賽的命中率,數(shù)據(jù)的第4列為每場(chǎng)比賽的投籃數(shù)和命中數(shù),格式為"命中數(shù)-投籃數(shù)"。如果想要計(jì)算詹姆斯整個(gè)常規(guī)賽的命中率,則需要算出他常規(guī)賽的投籃數(shù)和命中數(shù)。此時(shí),需要用到pandas分割字符串函數(shù)str.split()。
import numpy as np
import pandas as pd
df = pd.read_csv(“l(fā)bj-2020-2021-regular.csv”,encoding="gbk")
df0 = df['投籃'].str.split("-",expand=True)
df0.columns = ['命中數(shù)','投籃數(shù)']DataFrame類型的df0即為詹姆斯常規(guī)賽的命中數(shù)和投籃數(shù),如下所示:
| 0 | 命中數(shù) | 投籃數(shù) |
| 1 | 11 | 22 |
| 2 | 11 | 22 |
| ... | ... | ... |
因?yàn)橐謩e求取命中數(shù)和投籃數(shù)的總和,所以需要將df0的列轉(zhuǎn)化為整型,繼而可得到詹姆斯整個(gè)常規(guī)賽的命中率。
df0['命中數(shù)'] = df0['命中數(shù)'].astype('int')
df0['投籃數(shù)'] = df0['投籃數(shù)'].astype('int')
ShootRate = df0['命中數(shù)'].sum() / df0['投籃數(shù)'].sum()計(jì)算得到,詹姆斯2020-2021常規(guī)賽投籃命中率為51.34%,還是很不錯(cuò)的水平。
總結(jié)
到此這篇關(guān)于python語言中pandas字符串分割str.split()函數(shù)的文章就介紹到這了,更多相關(guān)pandas字符串分割str.split()函數(shù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python調(diào)用Java數(shù)據(jù)接口實(shí)現(xiàn)CRUD操作的詳細(xì)指南
Python和Java作為兩種流行的編程語言,在企業(yè)級(jí)應(yīng)用中常常需要實(shí)現(xiàn)跨語言的數(shù)據(jù)交互,下面我們就來看看如何在Django Python項(xiàng)目中調(diào)用Java數(shù)據(jù)接口實(shí)現(xiàn)CRUD操作吧2025-04-04
如何解決pytorch訓(xùn)練過程中CPU內(nèi)存溢出問題
這篇文章主要介紹了如何解決pytorch訓(xùn)練過程中CPU內(nèi)存溢出問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09
Python數(shù)據(jù)分析模塊pandas用法詳解
這篇文章主要介紹了Python數(shù)據(jù)分析模塊pandas用法,結(jié)合實(shí)例形式詳細(xì)分析了Python數(shù)據(jù)分析模塊pandas的功能、常見用法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-09-09
Python button選取本地圖片并顯示的實(shí)例
今天小編就為大家分享一篇Python button選取本地圖片并顯示的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-06-06
利用pyecharts實(shí)現(xiàn)地圖可視化的例子
今天小編就為大家分享一篇利用pyecharts實(shí)現(xiàn)地圖可視化的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-08-08
詳解Python進(jìn)行數(shù)據(jù)相關(guān)性分析的三種方式
相關(guān)系數(shù)量化數(shù)據(jù)集的變量或特征之間的關(guān)聯(lián)。這些統(tǒng)計(jì)數(shù)據(jù)對(duì)科學(xué)和技術(shù)非常重要,Python?有很好的工具可以用來計(jì)算它們。SciPy、NumPy?和Pandas相關(guān)方法以及數(shù)據(jù)可視化功能,感興趣的可以了解一下2022-04-04
詳解利用Pandas求解兩個(gè)DataFrame的差集,交集,并集
這篇文章主要和大家講解一下如何利用Pandas函數(shù)求解兩個(gè)DataFrame的差集、交集、并集,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-07-07

