基于Python編寫(xiě)一個(gè)簡(jiǎn)單的垃圾郵件分類器
隨著電子郵件的廣泛使用,垃圾郵件也日益增多,對(duì)用戶造成了很大的困擾。因此,開(kāi)發(fā)一個(gè)能夠自動(dòng)分類和過(guò)濾垃圾郵件的程序就顯得非常重要。本篇文章將介紹如何使用Python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的垃圾郵件分類器,幫助您更好地管理自己的電子郵件。
準(zhǔn)備工作
在開(kāi)始編寫(xiě)代碼之前,我們需要準(zhǔn)備以下的環(huán)境和庫(kù):
- Python 3.x
- scikit-learn庫(kù)
- pandas庫(kù)
- numpy庫(kù)
- NLTK庫(kù)
scikit-learn是一個(gè)常用的機(jī)器學(xué)習(xí)庫(kù),用于實(shí)現(xiàn)各種分類算法。pandas和numpy庫(kù)是用于數(shù)據(jù)處理和分析的常用庫(kù)。NLTK是一個(gè)自然語(yǔ)言處理庫(kù),用于處理文本數(shù)據(jù)。
數(shù)據(jù)集
為了訓(xùn)練和測(cè)試我們的垃圾郵件分類器,我們需要一個(gè)數(shù)據(jù)集。在本教程中,我們將使用Spambase數(shù)據(jù)集,該數(shù)據(jù)集由UCI機(jī)器學(xué)習(xí)庫(kù)提供。該數(shù)據(jù)集包含4601個(gè)電子郵件的特征值和一個(gè)二元分類標(biāo)簽,0表示正常郵件,1表示垃圾郵件。可以在以下網(wǎng)址下載Spambase數(shù)據(jù)集:https://archive.ics.uci.edu/ml/datasets/Spambase
加載數(shù)據(jù)
首先,我們需要將Spambase數(shù)據(jù)集加載到Python中。我們可以使用pandas庫(kù)中的read_csv函數(shù)來(lái)加載數(shù)據(jù):
import pandas as pd data = pd.read_csv("spambase.data")
加載完成后,我們可以使用以下代碼查看數(shù)據(jù)集的前5行:
print(data.head())
數(shù)據(jù)預(yù)處理
在將數(shù)據(jù)用于分類器之前,我們需要進(jìn)行一些數(shù)據(jù)預(yù)處理。首先,我們需要將數(shù)據(jù)分成特征值和分類標(biāo)簽兩個(gè)部分:
X = data.iloc[:, :-1].values y = data.iloc[:, -1].values
接下來(lái),我們將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。我們可以使用scikit-learn庫(kù)中的train_test_split函數(shù)將數(shù)據(jù)集隨機(jī)分成訓(xùn)練集和測(cè)試集:
from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)
最后,我們需要進(jìn)行特征縮放,將所有特征值縮放到相同的尺度上。我們可以使用scikit-learn庫(kù)中的StandardScaler類來(lái)完成特征縮放:
from sklearn.preprocessing import StandardScaler sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test)
訓(xùn)練分類器
在完成數(shù)據(jù)預(yù)處理后,我們可以開(kāi)始訓(xùn)練我們的垃圾郵件分類器。在本教程中,我們將使用支持向量機(jī)(SVM)算法作為分類器。我們可以使用scikit-learn庫(kù)中的SVM類來(lái)訓(xùn)練我們的分類器:
from sklearn.svm import SVC classifier = SVC(kernel='linear', random_state=0) classifier.fit(X_train, y_train)
在這里,我們選擇線性核函數(shù)作為SVM的核函數(shù),random_state參數(shù)用于保證每次運(yùn)行程序時(shí)得到的結(jié)果相同。
測(cè)試分類器
在完成訓(xùn)練后,我們可以使用測(cè)試集來(lái)測(cè)試我們的垃圾郵件分類器。我們可以使用以下代碼來(lái)預(yù)測(cè)測(cè)試集中的分類標(biāo)簽:
y_pred = classifier.predict(X_test)
接下來(lái),我們可以使用以下代碼來(lái)計(jì)算分類器的準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù):
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Precision:", precision_score(y_test, y_pred))
print("Recall:", recall_score(y_test, y_pred))
print("F1 score:", f1_score(y_test, y_pred))
在這里,accuracy_score函數(shù)用于計(jì)算準(zhǔn)確率,precision_score函數(shù)用于計(jì)算精確率,recall_score函數(shù)用于計(jì)算召回率,f1_score函數(shù)用于計(jì)算F1分?jǐn)?shù)。
結(jié)論
在本教程中,我們使用Python實(shí)現(xiàn)了一個(gè)簡(jiǎn)單的垃圾郵件分類器。我們使用Spambase數(shù)據(jù)集訓(xùn)練了一個(gè)SVM分類器,并使用測(cè)試集對(duì)其進(jìn)行了測(cè)試。通過(guò)計(jì)算準(zhǔn)確率、精確率、召回率和F1分?jǐn)?shù),我們發(fā)現(xiàn)分類器的表現(xiàn)很好,可以有效地識(shí)別垃圾郵件。這個(gè)簡(jiǎn)單的垃圾郵件分類器可以為您的電子郵件管理提供幫助,讓您更加高效地處理郵件。
以上就是基于Python編寫(xiě)一個(gè)簡(jiǎn)單的垃圾郵件分類器的詳細(xì)內(nèi)容,更多關(guān)于Python垃圾郵件分類器的資料請(qǐng)關(guān)注腳本之家
相關(guān)文章
python實(shí)時(shí)檢測(cè)鍵盤(pán)輸入函數(shù)的示例
今天小編就為大家分享一篇python實(shí)時(shí)檢測(cè)鍵盤(pán)輸入函數(shù)的示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-07-07
django框架配置swagger以及自定義參數(shù)使用方式
這篇文章主要介紹了django框架配置swagger以及自定義參數(shù)使用方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-11-11
使用python實(shí)現(xiàn)baidu hi自動(dòng)登錄的代碼
使用python自動(dòng)登錄baidu hi的代碼,有需要的朋友可以參考下2013-02-02
python計(jì)算牛頓迭代多項(xiàng)式實(shí)例分析
這篇文章主要介紹了python計(jì)算牛頓迭代多項(xiàng)式的方法,涉及Python數(shù)學(xué)運(yùn)算的相關(guān)技巧,需要的朋友可以參考下2015-05-05
Python基于面向?qū)ο笞鲆粋€(gè)文件夾整理工具
這篇文章主要給大家介紹了Python基于面向?qū)ο笞鲆粋€(gè)文件夾整理工具,文中的示例代碼講解詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2024-02-02
Python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目掌握酷狗音樂(lè)的加密過(guò)程
在常見(jiàn)的幾個(gè)音樂(lè)網(wǎng)站里,酷狗可以說(shuō)是最好爬取的啦,什么彎都沒(méi)有,所以最適合小白入門(mén)爬蟲(chóng),本篇針對(duì)爬蟲(chóng)零基礎(chǔ)的小白,所以每一步驟我都截圖并詳細(xì)解釋了,其實(shí)我自己看著都啰嗦,歸根到底就是兩個(gè)步驟的請(qǐng)求,還請(qǐng)大佬繞路勿噴2021-09-09
Python OpenCV簡(jiǎn)單的繪圖函數(shù)使用教程
本文主要為大家介紹了OpenCV中一些簡(jiǎn)單的繪圖函數(shù)的使用教程,文中的示例代碼講解詳細(xì),對(duì)我們了解OpenCV有一定的幫助,感興趣的可以學(xué)習(xí)一下2022-01-01

