R語言實現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)

更新時間：2021年04月17日 09:24:12 作者：jasonxty

這篇文章主要介紹了R語言實現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

生成測試數(shù)據(jù)

a1 <- c(“f”,”f”,”b”,”b”,”c,”c”)

利用nnet包中的函數(shù)class.ind

> class.ind(a1)
b c f
[1,] 0 0 1
[2,] 0 0 1
[3,] 1 0 0
[4,] 1 0 0
[5,] 0 1 0
[6,] 0 1 0

class.ind代碼

class.ind <- function(cl) {
  n <- length(cl)
  cl <- as.factor(cl)
  x <- matrix( 0,  n ,  length(levels(cl)) )
  # unclass 返回每個字符在level表中的位置
  # 然后按照列計算在向量中的位置
  x[n*(unclass(cl)-1) + （1：n）] <- 1
  dimnames(x) <- list(names(cl), levels(cl))
  x
}

補充：R語言中啞變量的設(shè)置

在構(gòu)建回歸模型時，如果自變量X為連續(xù)性變量，回歸系數(shù)β可以解釋為：在其他自變量不變的條件下，X每改變一個單位，所引起的因變量Y的平均變化量；如果自變量X為二分類變量，例如是否飲酒（1=是，0=否），則回歸系數(shù)β可以解釋為：其他自變量不變的條件下，X=1（飲酒者）與X=0（不飲酒者）相比，所引起的因變量Y的平均變化量。

但是，當(dāng)自變量X為多分類變量時，例如職業(yè)、學(xué)歷、血型、疾病嚴重程度等等，此時僅用一個回歸系數(shù)來解釋多分類變量之間的變化關(guān)系，及其對因變量的影響，就顯得太不理想。

此時，我們通常會將原始的多分類變量轉(zhuǎn)化為啞變量，每個啞變量只代表某兩個級別或若干個級別間的差異，通過構(gòu)建回歸模型，每一個啞變量都能得出一個估計的回歸系數(shù)，從而使得回歸的結(jié)果更易于解釋，更具有實際意義。

啞變量（Dummy Variable），又稱為虛擬變量、虛設(shè)變量或名義變量，從名稱上看就知道，它是人為虛設(shè)的變量，通常取值為0或1，來反映某個變量的不同屬性。對于有n個分類屬性的自變量，通常需要選取1個分類作為參照，因此可以產(chǎn)生n-1個啞變量。

什么情況下需要設(shè)置啞變量

1. 對于無序多分類變量，引入模型時需要轉(zhuǎn)化為啞變量

舉一個例子，如血型，一般分為A、B、O、AB四個類型，為無序多分類變量，通常情況下在錄入數(shù)據(jù)的時候，為了使數(shù)據(jù)量化，我們常會將其賦值為1、2、3、4。

從數(shù)字的角度來看，賦值為1、2、3、4后，它們是具有從小到大一定的順序關(guān)系的，而實際上，四種血型之間并沒有這種大小關(guān)系存在，它們之間應(yīng)該是相互平等獨立的關(guān)系。如果按照1、2、3、4賦值并帶入到回歸模型中是不合理的，此時我們就需要將其轉(zhuǎn)化為啞變量。

2. 對于有序多分類變量，引入模型時需要酌情考慮

例如疾病的嚴重程度，一般分為輕、中、重度，可認為是有序多分類變量，通常情況下我們也常會將其賦值為1、2、3（等距）或1、2、4（等比）等形式，通過由小到大的數(shù)字關(guān)系，來體現(xiàn)疾病嚴重程度之間一定的等級關(guān)系。

但需要注意的是，一旦賦值為上述等距或等比的數(shù)值形式，這在某種程度上是認為疾病的嚴重程度也呈現(xiàn)類似的等距或等比的關(guān)系。而事實上由于疾病在臨床上的復(fù)雜性，不同的嚴重程度之間并非是嚴格的等距或等比關(guān)系，因此再賦值為上述形式就顯得不太合理，此時可以將其轉(zhuǎn)化為啞變量進行量化。

3. 對于連續(xù)性變量，進行變量轉(zhuǎn)化時可以考慮設(shè)定為啞變量

對于連續(xù)性變量，很多人認為可以直接將其帶入到回歸模型中即可，但有時我們還需要結(jié)合實際的臨床意義，對連續(xù)性變量作適當(dāng)?shù)霓D(zhuǎn)換。例如年齡，以連續(xù)性變量帶入模型時，其解釋為年齡每增加一歲時對于因變量的影響。但往往年齡增加一歲，其效應(yīng)是很微弱的，并沒有太大的實際意義。

此時，我們可以將年齡這個連續(xù)性變量進行離散化，按照10歲一個年齡段進行劃分，如0-10、11-20、21-30、31-40等等，將每一組賦值為1、2、3、4，此時構(gòu)建模型的回歸系數(shù)就可以解釋為年齡每增加10歲時對因變量的影響。

以上賦值方式是基于一個前提，即年齡與因變量之間存在著一定的線性關(guān)系。但有時候可能會出現(xiàn)以下情況，例如在年齡段較低和較高的人群中，某種疾病的死亡率較高，而在中青年人群中，死亡率卻相對較低，年齡和死亡結(jié)局之間呈現(xiàn)一個U字型的關(guān)系，此時再將年齡段賦值為1、2、3、4就顯得不太合理了。

因此，當(dāng)我們無法確定自變量和因變量之間的變化關(guān)系，將連續(xù)性自變量離散化時，可以考慮進行啞變量轉(zhuǎn)換。

還有一種情況，例如將BMI按照臨床診斷標(biāo)準(zhǔn)分為體重過低、正常體重、超重、肥胖等幾種分類時，由于不同分類之間劃分的切點是不等距的，此時賦值為1、2、3就不太符合實際情況，也可以考慮將其轉(zhuǎn)化為啞變量。

在設(shè)定啞變量時，應(yīng)該選擇哪一類作為參照呢？

1. 一般情況下，可以選擇有特定意義的，或者有一定順序水平的類別作為參照

例如，婚姻狀態(tài)分為未婚、已婚、離異、喪偶等情況，可以將“未婚”作為參照；或者如學(xué)歷，分為小學(xué)、中學(xué)、大學(xué)、研究生等類別，存在著一定的順序，可以將“小學(xué)”作為參照，以便于回歸系數(shù)更容易解釋。

2. 可以選擇臨床正常水平作為參照

例如，BMI按照臨床診斷標(biāo)準(zhǔn)分為體重過低、正常體重、超重、肥胖等類別，此時可以選擇“正常體重”作為參照，其他分類都與正常體重進行比較，更具有臨床實際意義。

3. 還可以將研究者所關(guān)注的重點類別作為參照

例如血型，分為A、B、O、AB四個類型，研究者更關(guān)注O型血的人，因此可以將O型作為參照，來分析其他血型與O型相比后對于結(jié)局產(chǎn)生影響的差異。

4. R語言中實現(xiàn)

在R語言中對包括分類變量(factor)的數(shù)據(jù)建模時，一般會將其自動處理為虛擬變量或啞變量(dummy variable)。但有一些特殊的函數(shù)，如neuralnet包中的neuralnet函數(shù)就不會預(yù)處理。如果直接將原始數(shù)據(jù)扔進去，會出現(xiàn)”requires numeric/complex matrix/vector arguments”需要數(shù)值/復(fù)數(shù)矩陣/矢量參數(shù)錯誤。

這個時候，除了將這些變量刪除，我們只能手動將factor variable轉(zhuǎn)換為取值(0,1)的虛擬變量。所用的函數(shù)一般有model.matrix(),nnet package中的class.ind()

下面以UCI的german credit data為例說明。

首先，從UCI網(wǎng)站上下載到german.data數(shù)據(jù)集，并用str函數(shù)對其有個簡單的認識。

download.file("http://archive.ics.uci.edu/ml/machine-learning-databases/statlog/german/german.data", "./german.data")
data <- read.table("./german.data")
str(data)

該數(shù)據(jù)有21個變量，其中V21為目標(biāo)變量，V1-V20中包括integer和factor兩種類型。下面將用V1分類變量（包含4個level）和V2,V5,V8三個數(shù)值型變量作為解釋變量建模。

## 'data.frame':    1000 obs. of  21 variables:
##  $ V1 : Factor w/ 4 levels "A11","A12","A13",..: 1 2 4 1 1 4 4 2 4 2 ...
##  $ V2 : int  6 48 12 42 24 36 24 36 12 30 ...
##  $ V3 : Factor w/ 5 levels "A30","A31","A32",..: 5 3 5 3 4 3 3 3 3 5 ...
##  $ V4 : Factor w/ 10 levels "A40","A41","A410",..: 5 5 8 4 1 8 4 2 5 1 ...
##  $ V5 : int  1169 5951 2096 7882 4870 9055 2835 6948 3059 5234 ...
##  $ V6 : Factor w/ 5 levels "A61","A62","A63",..: 5 1 1 1 1 5 3 1 4 1 ...
##  $ V7 : Factor w/ 5 levels "A71","A72","A73",..: 5 3 4 4 3 3 5 3 4 1 ...
##  $ V8 : int  4 2 2 2 3 2 3 2 2 4 ...
##  $ V9 : Factor w/ 4 levels "A91","A92","A93",..: 3 2 3 3 3 3 3 3 1 4 ...
##  $ V10: Factor w/ 3 levels "A101","A102",..: 1 1 1 3 1 1 1 1 1 1 ...
##  $ V11: int  4 2 3 4 4 4 4 2 4 2 ...
##  $ V12: Factor w/ 4 levels "A121","A122",..: 1 1 1 2 4 4 2 3 1 3 ...
##  $ V13: int  67 22 49 45 53 35 53 35 61 28 ...
##  $ V14: Factor w/ 3 levels "A141","A142",..: 3 3 3 3 3 3 3 3 3 3 ...
##  $ V15: Factor w/ 3 levels "A151","A152",..: 2 2 2 3 3 3 2 1 2 2 ...
##  $ V16: int  2 1 1 1 2 1 1 1 1 2 ...
##  $ V17: Factor w/ 4 levels "A171","A172",..: 3 3 2 3 3 2 3 4 2 4 ...
##  $ V18: int  1 1 2 2 2 2 1 1 1 1 ...
##  $ V19: Factor w/ 2 levels "A191","A192": 2 1 1 1 1 2 1 2 1 1 ...
##  $ V20: Factor w/ 2 levels "A201","A202": 1 1 1 1 1 1 1 1 1 1 ...
##  $ V21: int  1 2 1 1 2 1 1 1 1 2……

首先加載neuralnet包嘗試一下，只用數(shù)值型變量建模，沒有報錯。

library("neuralnet")
NNModelAllNum <- neuralnet(V21 ~ V2 + V5 + V8, data)
NNModelAllNum

當(dāng)我們把V1放入解釋變量中出現(xiàn)了如下錯誤

NNModel <- neuralnet(V21 ~ V1 + V2 + V5 + V8, data)
## Error: 需要數(shù)值/復(fù)數(shù)矩陣/矢量參數(shù)

此時可以用model.matrix函數(shù)將V1轉(zhuǎn)化為三個虛擬變量，V1A12,V1A13,V1A14。

>dummyV1 <- model.matrix(~V1, data)
>head(cbind(dummyV1, data$V1))
   (Intercept) V1A12 V1A13 V1A14  
 1           1     0     0     0 1
 2           1     1     0     0 2
 3           1     0     0     1 4
 4           1     0     0     0 1
 5           1     0     0     0 1
 6           1     0     0     1 4

因為model.matrix函數(shù)對數(shù)值型和分類Level=2的類別型變量沒有影響，所以可以將四個變量一起用該函數(shù)生成新的數(shù)據(jù)集modelData，就可以用該數(shù)據(jù)集建模了。

>modelData <- model.matrix(~V1 + V2 + V5 + V8 + V21, data)
>head(modelData)
   (Intercept) V1A12 V1A13 V1A14 V2   V5 V8 V21
 1           1     0     0     0  6 1169  4   1
 2           1     1     0     0 48 5951  2   2
 3           1     0     0     1 12 2096  2   1
 4           1     0     0     0 42 7882  2   1
 5           1     0     0     0 24 4870  3   2
 6           1     0     0     1 36 9055  2   1

另一種方法是來自nnet package的class.ind函數(shù)

>library("nnet")
>dummyV12 <- class.ind(data$V1)
>head(dummyV12)
      A11 A12 A13 A14
 [1,]   1   0   0   0
 [2,]   0   1   0   0
 [3,]   0   0   0   1
 [4,]   1   0   0   0
 [5,]   1   0   0   0
 [6,]   0   0   0   1

可以看到，該結(jié)果和model.matrix稍有區(qū)別，生成了四個虛擬變量。要注意，為了避免多重共線性，對于level=n的分類變量只需選取其任意n-1個虛擬變量。

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

R語言實現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)

生成測試數(shù)據(jù)

class.ind代碼

什么情況下需要設(shè)置啞變量

1. 對于無序多分類變量，引入模型時需要轉(zhuǎn)化為啞變量

2. 對于有序多分類變量，引入模型時需要酌情考慮

3. 對于連續(xù)性變量，進行變量轉(zhuǎn)化時可以考慮設(shè)定為啞變量

在設(shè)定啞變量時，應(yīng)該選擇哪一類作為參照呢？

1. 一般情況下，可以選擇有特定意義的，或者有一定順序水平的類別作為參照

2. 可以選擇臨床正常水平作為參照

3. 還可以將研究者所關(guān)注的重點類別作為參照

4. R語言中實現(xiàn)

下面以UCI的german credit data為例說明。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

R語言實現(xiàn)將分類變量轉(zhuǎn)換為啞變量(dummy vairable)

生成測試數(shù)據(jù)

class.ind代碼

什么情況下需要設(shè)置啞變量

1. 對于無序多分類變量，引入模型時需要轉(zhuǎn)化為啞變量

2. 對于有序多分類變量，引入模型時需要酌情考慮

3. 對于連續(xù)性變量，進行變量轉(zhuǎn)化時可以考慮設(shè)定為啞變量

在設(shè)定啞變量時，應(yīng)該選擇哪一類作為參照呢？

1. 一般情況下，可以選擇有特定意義的，或者有一定順序水平的類別作為參照

2. 可以選擇臨床正常水平作為參照

3. 還可以將研究者所關(guān)注的重點類別作為參照

4. R語言中實現(xiàn)

下面以UCI的german credit data為例說明。

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

1. 對于無序多分類變量，引入模型時需要轉(zhuǎn)化為啞變量

2. 對于有序多分類變量，引入模型時需要酌情考慮

3. 對于連續(xù)性變量，進行變量轉(zhuǎn)化時可以考慮設(shè)定為啞變量

在設(shè)定啞變量時，應(yīng)該選擇哪一類作為參照呢？

1. 一般情況下，可以選擇有特定意義的，或者有一定順序水平的類別作為參照