R語(yǔ)言 實(shí)現(xiàn)兩表連接且輸出不重復(fù)數(shù)據(jù)
在做項(xiàng)目中遇到了如此問(wèn)題,其中整理的結(jié)果表中沒(méi)有會(huì)員ID信息,只有會(huì)員電話(huà)號(hào)碼信息,且每一行為唯一一個(gè)會(huì)員。
另外一張member表中包含會(huì)員ID以及會(huì)員電話(huà)信息,但是這張表有重復(fù)的會(huì)員信息,也就是說(shuō)一個(gè)會(huì)員在member表中多次出現(xiàn),memeber表比整理的表要大很多。
說(shuō)明:
1.在項(xiàng)目過(guò)程中,數(shù)據(jù)量較大,用到的是data.table包,需要用到SQL中的語(yǔ)句減少代碼量,因此需要sqldf包。
2.以下例子中xx中的a1在yy中都有對(duì)應(yīng)的值。
3.yy中的a1與b是一一對(duì)應(yīng)的關(guān)系,不存在同一個(gè)a1值對(duì)應(yīng)不同的b值。
4.此程序的目的是,用yy表與xx表匹配,也就是最終的結(jié)果應(yīng)該是在xx的基礎(chǔ)上增加b這一列的信息,數(shù)據(jù)集xx的行數(shù)不變。
如下所示:
<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
a1 c d
1: 1 8 adf
2: 2 5 af
3: 3 8 sdf
4: 4 6 utr
5: 5 23 af
6: 6 7 ruti</span>
<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
'f','h','i','b','b','c','f'))</span>
<span style="font-size:14px;">> yy a1 b 1: 2 b 2: 3 c 3: 1 a 4: 4 d 5: 5 e 6: 5 e 7: 7 g 8: 6 f 9: 8 h 10: 9 i 11: 2 b 12: 2 b 13: 3 c 14: 6 f </span>
<span style="font-size:14px;">#按照a1連接所有信息包括進(jìn)去 > dataxy<- merge(xx, yy, by = "a1", all.x = TRUE) > dataxy a1 c d b 1: 1 8 adf a 2: 2 5 af b 3: 2 5 af b 4: 2 5 af b 5: 3 8 sdf c 6: 3 8 sdf c 7: 4 6 utr d 8: 5 23 af e 9: 5 23 af e 10: 6 7 ruti f 11: 6 7 ruti f</span>
<span style="font-size:14px;">#刪除重復(fù)的行*/
> sqldf("select DISTINCT a1,b,c,d from left1")
a1 b c d
1 1 a 8 adf
2 2 b 5 af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23 af
6 6 f 7 ruti</span>
補(bǔ)充:R語(yǔ)言篩選出不重復(fù)的行的幾種方法
在做項(xiàng)目的過(guò)程中遇到篩選不重復(fù)的會(huì)員信息進(jìn)行匹配,本次介紹五種篩選不重復(fù)行的數(shù)據(jù):
五種方法如下:
>>> library(dplyr) >>> library(sqldf)
方法一:
>>> data1 <- data7_0 %>%
group_by(CELLPHONE,MEMBERID) %>%
filter(row_number() == 1) %>%
ungroup()
方法二:
>>> data2 <- data7_0 %>%
distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)
方法三:
>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")
方法四:
>>> data4 <- base::unique(data7_0)
方法五:
>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
R語(yǔ)言中data.frame的常用操作總結(jié)
這篇文章主要介紹了R語(yǔ)言中data.frame的常用操作總結(jié),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-04-04
R語(yǔ)言 使用ggplot2繪制好看的分組散點(diǎn)圖
這篇文章主要介紹了R語(yǔ)言 使用ggplot2繪制好看的分組散點(diǎn)圖操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2021-04-04
R語(yǔ)言數(shù)據(jù)可視化分析天貓雙十一銷(xiāo)售額增長(zhǎng)率
這篇文章主要為大家介紹了R語(yǔ)言數(shù)據(jù)可視化來(lái)分析天貓雙十一銷(xiāo)售額增長(zhǎng)率,來(lái)一探多年來(lái)歷年雙十一銷(xiāo)售額數(shù)據(jù)是否有造假,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-11-11
R語(yǔ)言中R-squared與Adjust R-squared參數(shù)的解釋
這篇文章主要給大家介紹了關(guān)于R語(yǔ)言中R-squared與Adjust R-squared兩個(gè)參數(shù)的相關(guān)資料,文中介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03
R語(yǔ)言?xún)山M變量特征相關(guān)關(guān)系熱圖繪制畫(huà)法
本文為大家介紹了如何畫(huà)兩組變量(特征)的相關(guān)關(guān)系熱圖的方法詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2022-02-02

