python 劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集的方法

更新時間：2018年12月11日 15:29:50 作者：心雨心辰

今天小編就為大家分享一篇python 劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

sklearn的cross_validation包中含有將數(shù)據(jù)集按照一定的比例，隨機劃分為訓(xùn)練集和測試集的函數(shù)train_test_split

from sklearn.cross_validation import train_test_split
#x為數(shù)據(jù)集的feature熟悉，y為label.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3)

得到的x_train,y_train（x_test,y_test）的index對應(yīng)的是x,y中被抽取到的序號。

若train_test_split傳入的是帶有l(wèi)abel的數(shù)據(jù)，則如下代碼：

from sklearn.cross_validation import train_test_split
#dat為數(shù)據(jù)集,含有feature和label.
train, test = train_test_split(dat, test_size = 0.3)

train,test含有feature和label的。

自己寫了一個函數(shù)：

#X:含label的數(shù)據(jù)集：分割成訓(xùn)練集和測試集
#test_size:測試集占整個數(shù)據(jù)集的比例
def trainTestSplit(X,test_size=0.3):
 X_num=X.shape[0]
 train_index=range(X_num)
 test_index=[]
 test_num=int(X_num*test_size)
 for i in range(test_num):
  randomIndex=int(np.random.uniform(0,len(train_index)))
  test_index.append(train_index[randomIndex])
  del train_index[randomIndex]
 #train,test的index是抽取的數(shù)據(jù)集X的序號
 train=X.ix[train_index] 
 test=X.ix[test_index]
 return train,test

以上這篇python 劃分?jǐn)?shù)據(jù)集為訓(xùn)練集和測試集的方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

python數(shù)據(jù)可視化之條形圖畫法
這篇文章主要為大家詳細(xì)介紹了python數(shù)據(jù)可視化之條形圖畫法，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2022-04-04
python3利用tcp實現(xiàn)文件夾遠(yuǎn)程傳輸
這篇文章主要為大家詳細(xì)介紹了python3利用tcp實現(xiàn)文件夾遠(yuǎn)程傳輸，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-07-07
給Django Admin添加驗證碼和多次登錄嘗試限制的實現(xiàn)
這篇文章主要介紹了給Django Admin添加驗證碼和多次登錄嘗試限制的實現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-07-07
使用Python編寫基于DHT協(xié)議的BT資源爬蟲
這篇文章主要介紹了使用Python編寫基于DHT協(xié)議的BT資源爬蟲的方法,文中對于DHT協(xié)議的相關(guān)知識也作了補充說明,需要的朋友可以參考下
2016-03-03
python 元組和列表的區(qū)別
這篇文章主要介紹了python 元組和列表的區(qū)別，幫助大家更好的理解和學(xué)習(xí)python 數(shù)據(jù)類型的相關(guān)知識，感興趣的朋友可以了解下
2020-11-11
Python實現(xiàn)繪制置信區(qū)間
置信區(qū)間是從觀測數(shù)據(jù)的統(tǒng)計量計算的一種估計值,它給出了一個可能包含具有特定置信水平的總體參數(shù)的值范圍,下面我們就來看看如何使用Python繪制置信區(qū)間吧
2024-02-02
Python Flask的request對象使用詳解
本文介紹Flask request對象,一個完整的HTTP請求,包括客戶端向服務(wù)端發(fā)送的Request請求和服務(wù)器端發(fā)送Response響應(yīng).為了能方便訪問獲取請求及響應(yīng)報文信息,Flask框架提供了一些內(nèi)建對象,下面就來說一下Flask針對請求提供內(nèi)建對象reques,需要的朋友可以參考一下
2023-02-02
Python繪制趨勢線的示例代碼
趨勢線是用來顯示數(shù)據(jù)趨勢或者預(yù)測未來發(fā)展方向的一種圖形表示方法,這篇文章主要為大家詳細(xì)介紹了如何使用Python繪制趨勢線,需要的可以了解下
2024-03-03
Python如何優(yōu)雅獲取本機IP方法
這篇文章主要介紹了Python如何優(yōu)雅獲取本機IP方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-11-11
Python Requests 基礎(chǔ)入門
首先，Python 標(biāo)準(zhǔn)庫中的 urllib2 模塊提供了你所需要的大多數(shù) HTTP 功能，但是它的 API 不友好。通過本文給大家介紹Python Requests 入門基礎(chǔ)，感興趣的朋友一起學(xué)習(xí)吧
2016-04-04