python使用pandas抽樣訓(xùn)練數(shù)據(jù)中某個類別實例
更新時間:2020年02月28日 11:25:28 作者:Yan456jie
今天小編就為大家分享一篇python使用pandas抽樣訓(xùn)練數(shù)據(jù)中某個類別實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
廢話真的一句也不想多說,直接看代碼吧!
# -*- coding: utf-8 -*-
import numpy
from sklearn import metrics
from sklearn.svm import LinearSVC
from sklearn.naive_bayes import MultinomialNB
from sklearn import linear_model
from sklearn.datasets import load_iris
from sklearn.cross_validation import train_test_split
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn import cross_validation
from sklearn import preprocessing
import scipy as sp
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectKBest ,chi2
import pandas as pd
from sklearn.preprocessing import OneHotEncoder
#import iris_data
'''
creativeID,userID,positionID,clickTime,conversionTime,connectionType,
telecomsOperator,appPlatform,sitesetID,positionType,age,gender,
education,marriageStatus,haveBaby,hometown,residence,appID,appCategory,label
'''
def test():
df = pd.read_table("/var/lib/mysql-files/data1.csv", sep=",")
df1 = df[["connectionType","telecomsOperator","appPlatform","sitesetID",
"positionType","age","gender","education","marriageStatus",
"haveBaby","hometown","residence","appCategory","label"]]
print df1["label"].value_counts()
N_data = df1[df1["label"]==0]
P_data = df1[df1["label"]==1]
N_data = N_data.sample(n=P_data.shape[0], frac=None, replace=False, weights=None, random_state=2, axis=0)
#print df1.loc[:,"label"]==0
print P_data.shape
print N_data.shape
data = pd.concat([N_data,P_data])
print data.shape
data = data.sample(frac=1).reset_index(drop=True)
print data[["label"]]
return
補充拓展:pandas實現(xiàn)對dataframe抽樣
隨機抽樣
import pandas as pd #對dataframe隨機抽取2000個樣本 pd.sample(df, n=2000)
分層抽樣
利用sklean中的函數(shù)靈活進行抽樣
from sklearn.model_selection import train_test_split #y是在X中的某一個屬性列 X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.2, stratify=y)
以上這篇python使用pandas抽樣訓(xùn)練數(shù)據(jù)中某個類別實例就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
keras 實現(xiàn)輕量級網(wǎng)絡(luò)ShuffleNet教程
這篇文章主要介紹了keras 實現(xiàn)輕量級網(wǎng)絡(luò)ShuffleNet教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06
關(guān)于Python中*args和**kwargs的深入理解
這篇文章主要給大家介紹了關(guān)于Python中*args和**kwargs的相關(guān)資料,*args和**kwargs代表的是變量, 變量前面的 *(星號)才是必須的,也可以寫成*v和**vs;寫成*args和**kwargs只是一個常用的書寫方式,需要的朋友可以參考下2021-08-08
python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法)
這篇文章主要介紹了python爬蟲爬取淘寶商品比價(附淘寶反爬蟲機制解決小辦法),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習或者工作具有一定的參考學(xué)習價值,需要的朋友們下面隨著小編來一起學(xué)習學(xué)習吧2020-12-12
淺談Python使用Bottle來提供一個簡單的web服務(wù)
這篇文章主要介紹了淺談Python使用Bottle來提供一個簡單的web服務(wù),具有一定借鑒價值,需要的朋友可以參考下2017-12-12
Python Socket庫基礎(chǔ)方法與應(yīng)用詳解
這篇文章主要介紹了關(guān)于Python socket庫的詳細技術(shù)解析,包含基礎(chǔ)方法說明、工作原理剖析,以及多個應(yīng)用領(lǐng)域的完整實現(xiàn)代碼,對大家的學(xué)習或工作有一定的幫助,需要的朋友可以參考下2025-04-04

