NumPy進(jìn)行統(tǒng)計(jì)分析

更新時(shí)間：2023年05月14日 11:26:38 作者：清木!

本文主要介紹了NumPy進(jìn)行統(tǒng)計(jì)分析，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

1 讀/寫(xiě)文件

NumPy文件讀寫(xiě)主要有二進(jìn)制的文件讀寫(xiě)和文件列表形式的數(shù)據(jù)讀寫(xiě)兩種形式

1、二進(jìn)制的文件讀寫(xiě)

save函數(shù)是以二進(jìn)制的格式保存數(shù)據(jù)。 np.save(“…/tmp/save_arr”,arr) load函數(shù)是從二進(jìn)制的文件中讀取數(shù)據(jù)。 np.load(“…/tmp/save_arr.npy”) savez函數(shù)可以將多個(gè)數(shù)組保存到一個(gè)文件中。 np.savez(‘…/tmp/savez_arr’,arr1,arr2) 存儲(chǔ)時(shí)可以省略擴(kuò)展名，但讀取時(shí)不能省略擴(kuò)展名。

# 利用NumPy進(jìn)行統(tǒng)計(jì)分析
# 2.3.1讀寫(xiě)文件
# 1、二進(jìn)制數(shù)據(jù)存儲(chǔ)
# 一個(gè)數(shù)組存儲(chǔ)，用save()方法，后綴是.npy
# 存儲(chǔ)時(shí)可以省略擴(kuò)展名，但是讀取時(shí)不能省略。
import numpy as np
arr = np.arange(25).reshape(5,5)
np.save("F:/test/save_arr",arr) #保存數(shù)組
print(arr)
data1 = np.load("F:/test/save_arr.npy") # 讀取數(shù)據(jù)
print(data1)
# 2、多個(gè)數(shù)組存儲(chǔ)，使用savez()，后綴是.npz
arr1 = np.array([[1,2,3],[4,5,6]])
arr2 = np.arange(0,1,0.2)
np.savez("F:/test/save_arr2",arr1,arr2) #保存數(shù)組
print(arr1)
print(arr2)
data2 = np.load("F:/test/save_arr2.npz")
print(data2['arr_0'])
print(data2['arr_1'])

2、讀取文本格式的數(shù)據(jù)

savetxt函數(shù)是將數(shù)組寫(xiě)到某種分隔符隔開(kāi)的文本文件中。 np.savetxt(“…/tmp/arr.txt”, arr, fmt=“%d”, delimiter=“,”) loadtxt函數(shù)執(zhí)行的是把文件加載到一個(gè)二維數(shù)組中。 np.loadtxt(“…/tmp/arr.txt”,delimiter=“,”) genfromtxt函數(shù)面向的是結(jié)構(gòu)化數(shù)組和缺失數(shù)據(jù)。 np.genfromtxt(“…/tmp/arr.txt”, delimiter = “,”)

# 3、文件存儲(chǔ)與讀寫(xiě)
arr = np.arange(0, 12, 1).reshape(4, -1)
print(arr)
np.savetxt("F:/test/save_arr.txt", arr, fmt="%d", delimiter=',')
data = np.loadtxt("F:/test/save_arr.txt", delimiter=',')
print(data)
# 使用genfromtxt讀取數(shù)據(jù)
data2 = np.genfromtxt("F:/test/save_arr.txt", delimiter=',')
print(data2)

2 使用數(shù)組進(jìn)行簡(jiǎn)單統(tǒng)計(jì)分析

1、排序

直接排序 sort函數(shù)是最常用的排序方法：arr.sort() sort函數(shù)也可以指定一個(gè)axis參數(shù)，使得sort函數(shù)可以沿著指定軸對(duì)數(shù)據(jù)集進(jìn)行排序。axis=1為沿橫軸排序； axis=0為沿縱軸排序。間接排序 argsort函數(shù)返回值為重新排序值的下標(biāo)。 arr.argsort() lexsort函數(shù)返回值是按照最后一個(gè)傳入數(shù)據(jù)排序的。 np.lexsort((a,b,c))

# 2.3.2 使用函數(shù)進(jìn)行簡(jiǎn)單的統(tǒng)計(jì)分析
# 1、排序
np.random.seed(0)  #設(shè)置隨機(jī)種子
arr = np.random.randint(1, 10, size=10)
print(arr)
arr.sort  # 直接排序
print(arr)
# 二維數(shù)組
np.random.seed(0)  #設(shè)置隨機(jī)種子
arr2 = np.random.randint(1,10, size=(3,3))
print(arr2)
arr2.sort(axis=1)  # axis=1沿著橫軸排序
print(arr2)
arr2.sort(axis=0)  # axis=0沿著縱軸排序
print(arr2)
# argsort()排序
np.random.seed(0)  #設(shè)置隨機(jī)種子
arr = np.random.randint(1, 10, size=6)
print(arr)
print(arr.argsort())  # argsort()返回的是新數(shù)據(jù)在原數(shù)據(jù)序列中的位置
# lexsort()排序
a = np.array([3,2,6,4,5])
b = np.array([50, 30, 40, 20, 10])
c = np.array([400, 300, 600, 100, 200])
d = np.lexsort((a,b,c))  # lexsort()只接收一個(gè)參數(shù)，即（a,b,c）
# 多個(gè)鍵值排序時(shí)是按照最后一個(gè)傳入數(shù)據(jù)計(jì)算的
print(list(zip(a[d], b[d], c[d])))

2、去重與重復(fù)數(shù)據(jù)

去重：通過(guò)unique函數(shù)可以找出數(shù)組中的唯一值并返回已排序的結(jié)果。重復(fù)： np.tile(A，reps) tile函數(shù)主要有兩個(gè)參數(shù)，參數(shù)“A”指定重復(fù)的數(shù)組，參數(shù)“reps”指定重復(fù)的次數(shù)。 numpy.repeat(a, repeats, axis=None) repeat函數(shù)主要有三個(gè)參數(shù)，參數(shù)“a”是需要重復(fù)的數(shù)組元素，參數(shù)“repeats”是重復(fù)次數(shù)，參數(shù)“axis”指定沿著哪個(gè)軸進(jìn)行重復(fù)，axis = 0表示按行進(jìn)行元素重復(fù)；axis = 1表示按列進(jìn)行元素重復(fù)。這兩個(gè)函數(shù)的主要區(qū)別在于，tile函數(shù)是對(duì)數(shù)組進(jìn)行重復(fù)操作，repeat函數(shù)是對(duì)數(shù)組中的每個(gè)元素進(jìn)行重復(fù)操作。

# 2、去重與重復(fù)數(shù)據(jù)
arr = np.array([5,2,3,5,3,2,4,3])
print(arr)
arr = np.unique(arr)   # 去重且排序  == sorted(set(arr))
print(arr)
# 使用tile()和repeat()函數(shù)實(shí)現(xiàn)數(shù)據(jù)重復(fù)
arr = np.arange(5)
print(arr)
print(np.tile(arr,3))  # 重復(fù)三次
print(arr.repeat(3))  # 重復(fù)三次

3、常用的統(tǒng)計(jì)函數(shù)

當(dāng)axis=0時(shí)，表示沿著縱軸計(jì)算。當(dāng)axis=1時(shí)，表示沿著橫軸計(jì)算。默認(rèn)時(shí)計(jì)算一個(gè)總值。

# 3、常用的統(tǒng)計(jì)函數(shù)
arr = np.arange(1,13,1).reshape(3,4)
print(arr)
print(np.sum(arr))  # 和
print(arr.sum(axis=1)) # 橫軸的和
print(arr.sum(axis=0)) # 縱軸的和
print(np.mean(arr))   # 均值
print(arr.mean(axis=1)) # 橫軸的均值
print(arr.mean(axis=0)) # 縱軸的均值
print(np.std(arr))   # 標(biāo)準(zhǔn)差
print(np.var(arr))   # 方差
print(np.min(arr))   # 最小值
print(np.max(arr))   # 最大值
print(np.argmin(arr))   # 最小值的索引
print(np.argmax(arr))   # 最大值的索引
print(np.cumsum(arr))  # 累計(jì)和
print(np.cumprod(arr))  # 累計(jì)積