R語言實現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)
生成測試數(shù)據(jù)
a1 <- c(“f”,”f”,”b”,”b”,”c,”c”)
利用nnet包中的函數(shù)class.ind
> class.ind(a1) b c f [1,] 0 0 1 [2,] 0 0 1 [3,] 1 0 0 [4,] 1 0 0 [5,] 0 1 0 [6,] 0 1 0
class.ind代碼
class.ind <- function(cl) {
n <- length(cl)
cl <- as.factor(cl)
x <- matrix( 0, n , length(levels(cl)) )
# unclass 返回每個字符在level表中的位置
# 然后按照列計算在向量中的位置
x[n*(unclass(cl)-1) + (1:n)] <- 1
dimnames(x) <- list(names(cl), levels(cl))
x
}
補充:R語言中啞變量的設(shè)置
在構(gòu)建回歸模型時,如果自變量X為連續(xù)性變量,回歸系數(shù)β可以解釋為:在其他自變量不變的條件下,X每改變一個單位,所引起的因變量Y的平均變化量;如果自變量X為二分類變量,例如是否飲酒(1=是,0=否),則回歸系數(shù)β可以解釋為:其他自變量不變的條件下,X=1(飲酒者)與X=0(不飲酒者)相比,所引起的因變量Y的平均變化量。
但是,當(dāng)自變量X為多分類變量時,例如職業(yè)、學(xué)歷、血型、疾病嚴重程度等等,此時僅用一個回歸系數(shù)來解釋多分類變量之間的變化關(guān)系,及其對因變量的影響,就顯得太不理想。
此時,我們通常會將原始的多分類變量轉(zhuǎn)化為啞變量,每個啞變量只代表某兩個級別或若干個級別間的差異,通過構(gòu)建回歸模型,每一個啞變量都能得出一個估計的回歸系數(shù),從而使得回歸的結(jié)果更易于解釋,更具有實際意義。
啞變量(Dummy Variable),又稱為虛擬變量、虛設(shè)變量或名義變量,從名稱上看就知道,它是人為虛設(shè)的變量,通常取值為0或1,來反映某個變量的不同屬性。對于有n個分類屬性的自變量,通常需要選取1個分類作為參照,因此可以產(chǎn)生n-1個啞變量。
什么情況下需要設(shè)置啞變量
1. 對于無序多分類變量,引入模型時需要轉(zhuǎn)化為啞變量
舉一個例子,如血型,一般分為A、B、O、AB四個類型,為無序多分類變量,通常情況下在錄入數(shù)據(jù)的時候,為了使數(shù)據(jù)量化,我們常會將其賦值為1、2、3、4。
從數(shù)字的角度來看,賦值為1、2、3、4后,它們是具有從小到大一定的順序關(guān)系的,而實際上,四種血型之間并沒有這種大小關(guān)系存在,它們之間應(yīng)該是相互平等獨立的關(guān)系。如果按照1、2、3、4賦值并帶入到回歸模型中是不合理的,此時我們就需要將其轉(zhuǎn)化為啞變量。
2. 對于有序多分類變量,引入模型時需要酌情考慮
例如疾病的嚴重程度,一般分為輕、中、重度,可認為是有序多分類變量,通常情況下我們也常會將其賦值為1、2、3(等距)或1、2、4(等比)等形式,通過由小到大的數(shù)字關(guān)系,來體現(xiàn)疾病嚴重程度之間一定的等級關(guān)系。
但需要注意的是,一旦賦值為上述等距或等比的數(shù)值形式,這在某種程度上是認為疾病的嚴重程度也呈現(xiàn)類似的等距或等比的關(guān)系。而事實上由于疾病在臨床上的復(fù)雜性,不同的嚴重程度之間并非是嚴格的等距或等比關(guān)系,因此再賦值為上述形式就顯得不太合理,此時可以將其轉(zhuǎn)化為啞變量進行量化。
3. 對于連續(xù)性變量,進行變量轉(zhuǎn)化時可以考慮設(shè)定為啞變量
對于連續(xù)性變量,很多人認為可以直接將其帶入到回歸模型中即可,但有時我們還需要結(jié)合實際的臨床意義,對連續(xù)性變量作適當(dāng)?shù)霓D(zhuǎn)換。例如年齡,以連續(xù)性變量帶入模型時,其解釋為年齡每增加一歲時對于因變量的影響。但往往年齡增加一歲,其效應(yīng)是很微弱的,并沒有太大的實際意義。
此時,我們可以將年齡這個連續(xù)性變量進行離散化,按照10歲一個年齡段進行劃分,如0-10、11-20、21-30、31-40等等,將每一組賦值為1、2、3、4,此時構(gòu)建模型的回歸系數(shù)就可以解釋為年齡每增加10歲時對因變量的影響。
以上賦值方式是基于一個前提,即年齡與因變量之間存在著一定的線性關(guān)系。但有時候可能會出現(xiàn)以下情況,例如在年齡段較低和較高的人群中,某種疾病的死亡率較高,而在中青年人群中,死亡率卻相對較低,年齡和死亡結(jié)局之間呈現(xiàn)一個U字型的關(guān)系,此時再將年齡段賦值為1、2、3、4就顯得不太合理了。
因此,當(dāng)我們無法確定自變量和因變量之間的變化關(guān)系,將連續(xù)性自變量離散化時,可以考慮進行啞變量轉(zhuǎn)換。
還有一種情況,例如將BMI按照臨床診斷標(biāo)準(zhǔn)分為體重過低、正常體重、超重、肥胖等幾種分類時,由于不同分類之間劃分的切點是不等距的,此時賦值為1、2、3就不太符合實際情況,也可以考慮將其轉(zhuǎn)化為啞變量。
在設(shè)定啞變量時,應(yīng)該選擇哪一類作為參照呢?
1. 一般情況下,可以選擇有特定意義的,或者有一定順序水平的類別作為參照
例如,婚姻狀態(tài)分為未婚、已婚、離異、喪偶等情況,可以將“未婚”作為參照;或者如學(xué)歷,分為小學(xué)、中學(xué)、大學(xué)、研究生等類別,存在著一定的順序,可以將“小學(xué)”作為參照,以便于回歸系數(shù)更容易解釋。
2. 可以選擇臨床正常水平作為參照
例如,BMI按照臨床診斷標(biāo)準(zhǔn)分為體重過低、正常體重、超重、肥胖等類別,此時可以選擇“正常體重”作為參照,其他分類都與正常體重進行比較,更具有臨床實際意義。
3. 還可以將研究者所關(guān)注的重點類別作為參照
例如血型,分為A、B、O、AB四個類型,研究者更關(guān)注O型血的人,因此可以將O型作為參照,來分析其他血型與O型相比后對于結(jié)局產(chǎn)生影響的差異。
4. R語言中實現(xiàn)
在R語言中對包括分類變量(factor)的數(shù)據(jù)建模時,一般會將其自動處理為虛擬變量或啞變量(dummy variable)。但有一些特殊的函數(shù),如neuralnet包中的neuralnet函數(shù)就不會預(yù)處理。如果直接將原始數(shù)據(jù)扔進去,會出現(xiàn)”requires numeric/complex matrix/vector arguments”需要數(shù)值/復(fù)數(shù)矩陣/矢量參數(shù)錯誤。
這個時候,除了將這些變量刪除,我們只能手動將factor variable轉(zhuǎn)換為取值(0,1)的虛擬變量。所用的函數(shù)一般有model.matrix(),nnet package中的class.ind()
下面以UCI的german credit data為例說明。
首先,從UCI網(wǎng)站上下載到german.data數(shù)據(jù)集,并用str函數(shù)對其有個簡單的認識。
download.file("http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data", "./german.data")
data <- read.table("./german.data")
str(data)
該數(shù)據(jù)有21個變量,其中V21為目標(biāo)變量,V1-V20中包括integer和factor兩種類型。下面將用V1分類變量(包含4個level)和V2,V5,V8三個數(shù)值型變量作為解釋變量建模。
## 'data.frame': 1000 obs. of 21 variables: ## $ V1 : Factor w/ 4 levels "A11","A12","A13",..: 1 2 4 1 1 4 4 2 4 2 ... ## $ V2 : int 6 48 12 42 24 36 24 36 12 30 ... ## $ V3 : Factor w/ 5 levels "A30","A31","A32",..: 5 3 5 3 4 3 3 3 3 5 ... ## $ V4 : Factor w/ 10 levels "A40","A41","A410",..: 5 5 8 4 1 8 4 2 5 1 ... ## $ V5 : int 1169 5951 2096 7882 4870 9055 2835 6948 3059 5234 ... ## $ V6 : Factor w/ 5 levels "A61","A62","A63",..: 5 1 1 1 1 5 3 1 4 1 ... ## $ V7 : Factor w/ 5 levels "A71","A72","A73",..: 5 3 4 4 3 3 5 3 4 1 ... ## $ V8 : int 4 2 2 2 3 2 3 2 2 4 ... ## $ V9 : Factor w/ 4 levels "A91","A92","A93",..: 3 2 3 3 3 3 3 3 1 4 ... ## $ V10: Factor w/ 3 levels "A101","A102",..: 1 1 1 3 1 1 1 1 1 1 ... ## $ V11: int 4 2 3 4 4 4 4 2 4 2 ... ## $ V12: Factor w/ 4 levels "A121","A122",..: 1 1 1 2 4 4 2 3 1 3 ... ## $ V13: int 67 22 49 45 53 35 53 35 61 28 ... ## $ V14: Factor w/ 3 levels "A141","A142",..: 3 3 3 3 3 3 3 3 3 3 ... ## $ V15: Factor w/ 3 levels "A151","A152",..: 2 2 2 3 3 3 2 1 2 2 ... ## $ V16: int 2 1 1 1 2 1 1 1 1 2 ... ## $ V17: Factor w/ 4 levels "A171","A172",..: 3 3 2 3 3 2 3 4 2 4 ... ## $ V18: int 1 1 2 2 2 2 1 1 1 1 ... ## $ V19: Factor w/ 2 levels "A191","A192": 2 1 1 1 1 2 1 2 1 1 ... ## $ V20: Factor w/ 2 levels "A201","A202": 1 1 1 1 1 1 1 1 1 1 ... ## $ V21: int 1 2 1 1 2 1 1 1 1 2……
首先加載neuralnet包嘗試一下,只用數(shù)值型變量建模,沒有報錯。
library("neuralnet")
NNModelAllNum <- neuralnet(V21 ~ V2 + V5 + V8, data)
NNModelAllNum
當(dāng)我們把V1放入解釋變量中出現(xiàn)了如下錯誤
NNModel <- neuralnet(V21 ~ V1 + V2 + V5 + V8, data) ## Error: 需要數(shù)值/復(fù)數(shù)矩陣/矢量參數(shù)
此時可以用model.matrix函數(shù)將V1轉(zhuǎn)化為三個虛擬變量,V1A12,V1A13,V1A14。
>dummyV1 <- model.matrix(~V1, data) >head(cbind(dummyV1, data$V1)) (Intercept) V1A12 V1A13 V1A14 1 1 0 0 0 1 2 1 1 0 0 2 3 1 0 0 1 4 4 1 0 0 0 1 5 1 0 0 0 1 6 1 0 0 1 4
因為model.matrix函數(shù)對數(shù)值型和分類Level=2的類別型變量沒有影響,所以可以將四個變量一起用該函數(shù)生成新的數(shù)據(jù)集modelData,就可以用該數(shù)據(jù)集建模了。
>modelData <- model.matrix(~V1 + V2 + V5 + V8 + V21, data) >head(modelData) (Intercept) V1A12 V1A13 V1A14 V2 V5 V8 V21 1 1 0 0 0 6 1169 4 1 2 1 1 0 0 48 5951 2 2 3 1 0 0 1 12 2096 2 1 4 1 0 0 0 42 7882 2 1 5 1 0 0 0 24 4870 3 2 6 1 0 0 1 36 9055 2 1
另一種方法是來自nnet package的class.ind函數(shù)
>library("nnet")
>dummyV12 <- class.ind(data$V1)
>head(dummyV12)
A11 A12 A13 A14
[1,] 1 0 0 0
[2,] 0 1 0 0
[3,] 0 0 0 1
[4,] 1 0 0 0
[5,] 1 0 0 0
[6,] 0 0 0 1
可以看到,該結(jié)果和model.matrix稍有區(qū)別,生成了四個虛擬變量。要注意,為了避免多重共線性,對于level=n的分類變量只需選取其任意n-1個虛擬變量。
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
R語言-進行數(shù)據(jù)的重新編碼(recode)操作
這篇文章主要介紹了R語言-進行數(shù)據(jù)的重新編碼(recode)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-04-04

