關(guān)于MySQL 大批量插入時(shí)如何過濾掉重復(fù)數(shù)據(jù)
前言:
加班原因是上線,解決線上數(shù)據(jù)庫存在重復(fù)數(shù)據(jù)的問題,發(fā)現(xiàn)了程序的bug,很好解決,有點(diǎn)問題的是,修正線上的重復(fù)數(shù)據(jù)。
線上庫有6個(gè)表存在重復(fù)數(shù)據(jù),其中2個(gè)表比較大,一個(gè)96萬+、一個(gè)30萬+,因?yàn)橹疤幚磉^相同的問題,就直接拿來了上次的Python去重腳本,腳本很簡(jiǎn)單,就是連接數(shù)據(jù)庫,查出來重復(fù)數(shù)據(jù),循環(huán)刪除。
emmmm,但是這個(gè)效率嘛,實(shí)在是太低了,1秒一條,重復(fù)數(shù)據(jù)大約2萬+,預(yù)估時(shí)間大約在8個(gè)小時(shí)左右。。。
盲目依靠前人的東西,而不去自己思考是有問題的!總?cè)ハ胫霸趺纯梢?,現(xiàn)在怎么不行了,這也是有問題的!我發(fā)現(xiàn),最近確實(shí)狀態(tài)不太對(duì),失去了探索和求知的欲望,今天算是一個(gè)警醒,頗有迷途知返的感覺。
言歸正傳,下面詳細(xì)介紹去重步驟。
一、發(fā)現(xiàn)問題
CREATE TABLE `animal` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(20) DEFAULT NULL,
`age` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COLLATE=utf8_bin;
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('1', 'cat', '12');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('2', 'dog', '13');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('3', 'camel', '25');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('4', 'cat', '32');
INSERT INTO `pilipa_dds`.`student` (`id`, `name`, `age`) VALUES ('5', 'dog', '42');
目標(biāo):我們要去掉name相同的數(shù)據(jù)。
先看看哪些數(shù)據(jù)重復(fù)了
SELECT name,count( 1 ) FROM student GROUP BY NAME HAVING count( 1 ) > 1;
輸出:
name count(1) cat 2 dog 2
name為cat和dog的數(shù)據(jù)重復(fù)了,每個(gè)重復(fù)的數(shù)據(jù)有兩條;
Select * From 表 Where 重復(fù)字段 In (Select 重復(fù)字段 From 表 Group By 重復(fù)字段 Having Count(1)>1)
二、刪除全部重復(fù)數(shù)據(jù),一條不留
直接刪除會(huì)報(bào)錯(cuò)
DELETE FROM student WHERE NAME IN ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1)
報(bào)錯(cuò):
1093 - You can't specify target table 'student' for update in FROM clause, Time: 0.016000s
原因是:更新這個(gè)表的同時(shí)又查詢了這個(gè)表,查詢這個(gè)表的同時(shí)又去更新了這個(gè)表,可以理解為死鎖。mysql不支持這種更新查詢同一張表的操作
解決辦法:把要更新的幾列數(shù)據(jù)查詢出來做為一個(gè)第三方表,然后篩選更新。
DELETE FROM student WHERE NAME IN ( SELECT t.NAME FROM ( SELECT NAME FROM student GROUP BY NAME HAVING count( 1 ) > 1 ) t)
三、刪除表中刪除重復(fù)數(shù)據(jù),僅保留一條
在刪除之前,我們可以先查一下,我們要?jiǎng)h除的重復(fù)數(shù)據(jù)是啥樣的
SELECT * FROM student WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
啥意思呢,就是先通過name分組,查出id最小的數(shù)據(jù),這些數(shù)據(jù)就是我們要留下的火種,那么再查詢出id不在這里面的,就是我們要?jiǎng)h除的重復(fù)數(shù)據(jù)。
四、開始刪除重復(fù)數(shù)據(jù),僅留一條
很簡(jiǎn)單,剛才的select換成delete即可
DELETE FROM student WHERE id NOT IN ( SELECT t.id FROM ( SELECT MIN( id ) AS id FROM student GROUP BY `name` ) t )
90萬+的表執(zhí)行起來超級(jí)快。
到此這篇關(guān)于關(guān)于MySQL 大批量插入時(shí)如何過濾掉重復(fù)數(shù)據(jù)的文章就介紹到這了,更多相關(guān)MySQL過濾掉重復(fù)數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Table ‘xxx’ is marked as crashed and should be repaired 錯(cuò)誤解決
這些東西都是從其他地方找來的一些解決MYSQL數(shù)據(jù)庫這個(gè)錯(cuò)誤的方法,并不一定適用于神跡數(shù)據(jù)庫,僅僅供參考一下,具體的解決方法還是需要摸索。2009-04-04
MySQL性能優(yōu)化之Open_Table配置參數(shù)的合理配置建議
這篇文章主要介紹了MySQL性能優(yōu)化之Open_Table配置參數(shù)的合理配置建議,在MySQL數(shù)據(jù)庫中,Opened_tables表示打開過的表數(shù)量,需要的朋友可以參考下2014-07-07
linux下mysql數(shù)據(jù)庫單向同步配置方法分享
mysql數(shù)據(jù)庫單向同步又叫做主從復(fù)制,是通過二進(jìn)制日志文件完成的,注意:mysql 數(shù)據(jù)庫的版本,兩個(gè)數(shù)據(jù)庫版本要相同2012-06-06
MySQL如何快速的創(chuàng)建千萬級(jí)測(cè)試數(shù)據(jù)
這篇文章主要給大家介紹了關(guān)于MySQL如何快速的創(chuàng)建千萬級(jí)測(cè)試數(shù)據(jù)的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用MySQL具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧2019-05-05
MySQL 5.5.49 大內(nèi)存優(yōu)化配置文件優(yōu)化詳解
最近mysql服務(wù)器升級(jí)到了MySQL 5.5.49版本,性能比mysql 5.0.**肯定效率高了不少,但mysql的默認(rèn)配置文件不合理,這里是針對(duì)大內(nèi)存訪問量大的機(jī)器的配置方案,需要的朋友可以參考下2016-05-05
細(xì)談Mysql的存儲(chǔ)過程和存儲(chǔ)函數(shù)
存儲(chǔ)函數(shù)與存儲(chǔ)過程作用類同,不同的是存儲(chǔ)過程只能使用CALL語句來調(diào)用存儲(chǔ)過程,只能用輸出變量返回值,而存儲(chǔ)函數(shù)可以從語句外調(diào)用(即通過引用函數(shù)名),也能返回標(biāo)量值。下面小編給大家詳細(xì)講一講2019-05-05
mysql使用教程之分區(qū)表的使用方法(刪除分區(qū)表)
mysql分區(qū)表使用方法,新增分區(qū)、刪除分區(qū)、分區(qū)的合并、分區(qū)的拆分等使用方法2013-12-12

