Mysql去重的幾種方式分步講解
前言
我們做數(shù)據(jù)分析的時候經(jīng)常會遇到去重問題,下面總結 sql 去重的幾種方式,后續(xù)如果還有再補充,大數(shù)據(jù)分析層面包括 hive、clickhouse 也可參考。
準備
本文以 mysql 作為作為例子進行 sql 去重的實現(xiàn)。首先準備一張表:
創(chuàng)建表
t_score
create table t_score( ts datetime, id varchar(10), name varchar(255), score int(3) )
datetime: 入庫時間
id :學號
name:姓名
soce :分數(shù)
測試數(shù)據(jù)
insert into t_score value(now(), '101','zhangsan', 90); insert into t_score value(now(), '101','zhangsan', 92); insert into t_score value(now(), '101','zhangsan', 96); insert into t_score value(now(), '102','lisi', 90); insert into t_score value(now(), '102','lisi', 92); insert into t_score value(now(), '103','wangwu', 96);
目標
最終目標是根據(jù)時間去重,將入庫時間最新的數(shù)據(jù)留下,id 重復的認為是重復數(shù)據(jù)。

最終期望得到的結果為:

探索
distinct 去重
首先想到的就是 distinct 關鍵字去重,先要了解一下這個關鍵字的含義和用法。
含義:distinct用來查詢不重復記錄的條數(shù),即distinct來返回不重復字段的條數(shù)(count(distinct id)),其原因是distinct只能返回他的目標字段,而無法返回其他字段。
用法注意:
1.distinct【查詢字段】,必須放在要查詢字段的開頭,即放在第一個參數(shù);
2.只能在SELECT 語句中使用,不能在 INSERT, DELETE, UPDATE 中使用;
3.DISTINCT 表示對后面的所有參數(shù)的拼接取不重復的記錄,即查出的參數(shù)拼接每行記錄都是唯一的
4.不能與all同時使用,默認情況下,查詢時返回的就是所有的結果。
使用 distinct 不能滿足我們的去重需求:
SELECT DISTINCT ( id ), NAME, score FROM t_score

group by去重
group by 是分組去重,但是僅僅使用group by 也達不到去重求最新的目的
SELECT id, name, score FROM t_score GROUP BY id, name, score

實現(xiàn)方案
方案一
首先,取出來每行數(shù)據(jù)的最大時間(即最新時間),然后讓原表數(shù)據(jù)和最大時間做右連接,得到的就是最新的數(shù)據(jù)。
SELECT
a0.*
FROM
t_score a0
RIGHT JOIN (
SELECT
max(ts) tsMax,
id
FROM
t_score
GROUP BY
id
) b0 ON a0.ts = b0.tsMax
AND a0.id = b0.id

方案二
方案二為方案一的變種,使用了exists 關鍵字來獲取時間上最新的數(shù)據(jù)
SELECT
a0.*
FROM
t_score a0
WHERE
EXISTS (
SELECT
*
FROM
(
SELECT
max(ts) tsMax,
id
FROM
t_score
GROUP BY
id
) b0
WHERE
b0.tsMax = a0.ts
AND b0.id = a0.id
)
方案三
使用 row_number() over (parttion by 分組列 order by 排序列) 方式
SELECT * FROM ( SELECT *, row_number() over ( PARTITION BY id ORDER BY ts DESC ) num FROM t_score ) a0 WHERE a0.num = 1
需要注意的是:MySQL從8.0開始支持窗口函數(shù)
到此這篇關于Mysql去重的幾種方式分步講解的文章就介紹到這了,更多相關Mysql去重內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
MySQL 聯(lián)合索引與Where子句的優(yōu)化 提高數(shù)據(jù)庫運行效率
網(wǎng)站系統(tǒng)上線至今,數(shù)據(jù)量已經(jīng)不知不覺上到500M,近8W記錄了。涉及數(shù)據(jù)庫操作的基本都是變得很慢了,這篇文章主要是說明配置并不是數(shù)據(jù)庫操作慢的主要原因2012-01-01
MySQL 5.0.96 for Windows x86 32位綠色精簡版安裝教程
這篇文章主要介紹了MySQL 5.0.96 for Windows x86 32位綠色精簡版安裝教程,需要的朋友可以參考下2017-10-10
圖解Mysql中的LEFT?JOIN、RIGHT?JOIN與JOIN的區(qū)別
這篇文章主要介紹了圖解Mysql中的LEFT?JOIN、RIGHT?JOIN與JOIN的區(qū)別,Left?Join就是以左邊為基準,Inner?Join就是查兩個重復的部分,Right?Join就是以右邊為基準,需要的朋友可以參考下2023-11-11

