python 實(shí)現(xiàn)樸素貝葉斯算法的示例
更新時(shí)間:2020年09月30日 11:21:55 作者:鄙人劍人肖
這篇文章主要介紹了python實(shí)現(xiàn)樸素貝葉斯算法的示例,幫助大家更好的理解和學(xué)習(xí)python 機(jī)器學(xué)習(xí)算法,感興趣的朋友可以了解下
特點(diǎn)
- 這是分類算法貝葉斯算法的較為簡(jiǎn)單的一種,整個(gè)貝葉斯分類算法的核心就是在求解貝葉斯方程P(y|x)=[P(x|y)P(y)]/P(x)
- 而樸素貝葉斯算法就是在犧牲一定準(zhǔn)確率的情況下強(qiáng)制特征x滿足獨(dú)立條件,求解P(x|y)就更為方便了
- 但基本上現(xiàn)實(shí)生活中,沒(méi)有任何關(guān)系的兩個(gè)特征幾乎是不存在的,故樸素貝葉斯不適合那些關(guān)系密切的特征
from collections import defaultdict
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from loguru import logger
class NaiveBayesScratch():
"""樸素貝葉斯算法Scratch實(shí)現(xiàn)"""
def __init__(self):
# 存儲(chǔ)先驗(yàn)概率 P(Y=ck)
self._prior_prob = defaultdict(float)
# 存儲(chǔ)似然概率 P(X|Y=ck)
self._likelihood = defaultdict(defaultdict)
# 存儲(chǔ)每個(gè)類別的樣本在訓(xùn)練集中出現(xiàn)次數(shù)
self._ck_counter = defaultdict(float)
# 存儲(chǔ)每一個(gè)特征可能取值的個(gè)數(shù)
self._Sj = defaultdict(float)
def fit(self, X, y):
"""
模型訓(xùn)練,參數(shù)估計(jì)使用貝葉斯估計(jì)
X:
訓(xùn)練集,每一行表示一個(gè)樣本,每一列表示一個(gè)特征或?qū)傩?
y:
訓(xùn)練集標(biāo)簽
"""
n_sample, n_feature = X.shape
# 計(jì)算每個(gè)類別可能的取值以及每個(gè)類別樣本個(gè)數(shù)
ck, num_ck = np.unique(y, return_counts=True)
self._ck_counter = dict(zip(ck, num_ck))
for label, num_label in self._ck_counter.items():
# 計(jì)算先驗(yàn)概率,做了拉普拉斯平滑處理,即計(jì)算P(y)
self._prior_prob[label] = (num_label + 1) / (n_sample + ck.shape[0])
# 記錄每個(gè)類別樣本對(duì)應(yīng)的索引
ck_idx = []
for label in ck:
label_idx = np.squeeze(np.argwhere(y == label))
ck_idx.append(label_idx)
# 遍歷每個(gè)類別
for label, idx in zip(ck, ck_idx):
xdata = X[idx]
# 記錄該類別所有特征對(duì)應(yīng)的概率
label_likelihood = defaultdict(defaultdict)
# 遍歷每個(gè)特征
for i in range(n_feature):
# 記錄該特征每個(gè)取值對(duì)應(yīng)的概率
feature_val_prob = defaultdict(float)
# 獲取該列特征可能的取值和每個(gè)取值出現(xiàn)的次數(shù)
feature_val, feature_cnt = np.unique(xdata[:, i], return_counts=True)
self._Sj[i] = feature_val.shape[0]
feature_counter = dict(zip(feature_val, feature_cnt))
for fea_val, cnt in feature_counter.items():
# 計(jì)算該列特征每個(gè)取值的概率,做了拉普拉斯平滑,即為了計(jì)算P(x|y)
feature_val_prob[fea_val] = (cnt + 1) / (self._ck_counter[label] + self._Sj[i])
label_likelihood[i] = feature_val_prob
self._likelihood[label] = label_likelihood
def predict(self, x):
"""
輸入樣本,輸出其類別,本質(zhì)上是計(jì)算后驗(yàn)概率
**注意計(jì)算后驗(yàn)概率的時(shí)候?qū)Ω怕嗜?duì)數(shù)**,概率連乘可能導(dǎo)致浮點(diǎn)數(shù)下溢,取對(duì)數(shù)將連乘轉(zhuǎn)化為求和
"""
# 保存分類到每個(gè)類別的后驗(yàn)概率,即計(jì)算P(y|x)
post_prob = defaultdict(float)
# 遍歷每個(gè)類別計(jì)算后驗(yàn)概率
for label, label_likelihood in self._likelihood.items():
prob = np.log(self._prior_prob[label])
# 遍歷樣本每一維特征
for i, fea_val in enumerate(x):
feature_val_prob = label_likelihood[i]
# 如果該特征值出現(xiàn)在訓(xùn)練集中則直接獲取概率
if fea_val in feature_val_prob:
prob += np.log(feature_val_prob[fea_val])
else:
# 如果該特征沒(méi)有出現(xiàn)在訓(xùn)練集中則采用拉普拉斯平滑計(jì)算概率
laplace_prob = 1 / (self._ck_counter[label] + self._Sj[i])
prob += np.log(laplace_prob)
post_prob[label] = prob
prob_list = list(post_prob.items())
prob_list.sort(key=lambda v: v[1], reverse=True)
# 返回后驗(yàn)概率最大的類別作為預(yù)測(cè)類別
return prob_list[0][0]
def main():
X, y = load_iris(return_X_y=True)
xtrain, xtest, ytrain, ytest = train_test_split(X, y, train_size=0.8, shuffle=True)
model = NaiveBayesScratch()
model.fit(xtrain, ytrain)
n_test = xtest.shape[0]
n_right = 0
for i in range(n_test):
y_pred = model.predict(xtest[i])
if y_pred == ytest[i]:
n_right += 1
else:
logger.info("該樣本真實(shí)標(biāo)簽為:{},但是Scratch模型預(yù)測(cè)標(biāo)簽為:{}".format(ytest[i], y_pred))
logger.info("Scratch模型在測(cè)試集上的準(zhǔn)確率為:{}%".format(n_right * 100 / n_test))
if __name__ == "__main__":
main()
以上就是python 實(shí)現(xiàn)樸素貝葉斯算法的示例的詳細(xì)內(nèi)容,更多關(guān)于python實(shí)現(xiàn)樸素貝葉斯算法的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
您可能感興趣的文章:
- Python機(jī)器學(xué)習(xí)應(yīng)用之樸素貝葉斯篇
- Python通過(guò)樸素貝葉斯和LSTM分別實(shí)現(xiàn)新聞文本分類
- python機(jī)器學(xué)習(xí)樸素貝葉斯算法及模型的選擇和調(diào)優(yōu)詳解
- python實(shí)現(xiàn)貝葉斯推斷的例子
- Python實(shí)現(xiàn)樸素貝葉斯的學(xué)習(xí)與分類過(guò)程解析
- python實(shí)現(xiàn)基于樸素貝葉斯的垃圾分類算法
- python實(shí)現(xiàn)樸素貝葉斯算法
- 樸素貝葉斯Python實(shí)例及解析
- Python Multinomial Naive Bayes多項(xiàng)貝葉斯模型實(shí)現(xiàn)原理介紹
相關(guān)文章
YOLOv5以txt或json格式輸出預(yù)測(cè)結(jié)果的方法詳解
這篇文章主要給大家介紹了關(guān)于YOLOv5以txt或json格式輸出預(yù)測(cè)結(jié)果的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2023-03-03
Python計(jì)算質(zhì)數(shù)的方法總結(jié)
質(zhì)數(shù)(Prime?Number)是指大于1且只能被1和自身整除的正整數(shù),計(jì)算質(zhì)數(shù)是數(shù)論中的一個(gè)經(jīng)典問(wèn)題,本文將介紹python中多種計(jì)算質(zhì)數(shù)的方法,希望對(duì)大家有所幫助2023-11-11
Python sqlite3事務(wù)處理方法實(shí)例分析
這篇文章主要介紹了Python sqlite3事務(wù)處理方法,結(jié)合具體實(shí)例形式分析了Python針對(duì)sqlite3事務(wù)處理的操作技巧,代碼中包含詳盡的注釋,需要的朋友可以參考下2017-06-06
提高Python生產(chǎn)力的五個(gè)Jupyter notebook插件
Jupyter Notebook 因其可用性和實(shí)用性而成為數(shù)據(jù)分析和機(jī)器學(xué)習(xí)模型領(lǐng)域最流行的 IDE,它也是很多數(shù)據(jù)初學(xué)者的首選 IDE。它最具特色的是,擁有豐富的插件、擴(kuò)展數(shù)據(jù)處理能力和提升工作效率2021-11-11
python PIL Image 圖像處理基本操作實(shí)例
這篇文章主要介紹了python PIL Image 圖像處理基本操作實(shí)例包括圖片加載、灰度圖,圖像通道分離和合并,在圖像上輸出文字,圖像縮放,圖像閾值分割、 二值化,圖像裁剪需要的朋友可以參考下2022-04-04

