mysql 如何插入隨機(jī)字符串?dāng)?shù)據(jù)的實(shí)現(xiàn)方法
應(yīng)用場(chǎng)景:
有時(shí)需要測(cè)試插入數(shù)據(jù)庫(kù)的記錄來測(cè)試,所以就非常需要用到這些腳本。
創(chuàng)建表:
CREATE TABLE `tables_a` ( `id` int(10) NOT NULL DEFAULT '0', `name` char(50) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
創(chuàng)建產(chǎn)生隨機(jī)字符串的函數(shù):
set global log_bin_trust_function_creators = 1;
DROP FUNCTION IF EXISTS rand_string;
DELIMITER //
CREATE FUNCTION rand_string(n INT)
RETURNS VARCHAR(255)
BEGIN
DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';
DECLARE return_str varchar(255) DEFAULT '';
DECLARE i INT DEFAULT 0;
WHILE i < n DO
SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1));
SET i = i +1;
END WHILE;
RETURN return_str;
END //
delimiter ;
創(chuàng)建插入表的procedure,x是從多少開始。y是多少結(jié)束,z是產(chǎn)生多少位隨機(jī)數(shù)
delimiter // create procedure test(x int(10),y int(10),z int(10)) begin DECLARE i INT DEFAULT x; while i<y do insert into tables_a values(i,rand_string(z)); set i=i+1; end whi
mysql隨機(jī)數(shù)據(jù)生成并插入
dblp數(shù)據(jù)庫(kù)中引用信息很少,平均一篇論文引用0.2篇。使用dblp做實(shí)驗(yàn)數(shù)據(jù)集的某篇論文提到,可以隨機(jī)添加引用信息。受此啟發(fā),我打算為每一篇論文都添加20篇隨機(jī)引用,于是就寫出了如下的sql語(yǔ)句:
String sql = "insert into citation(pId1,pId2) values( (select pId from papers limit ?,1),(select pId from papers limit ?,1))";
使用preparedstatement,以batch方式提交數(shù)據(jù)庫(kù)。
第一個(gè)參數(shù)是paper的rowid信息,從0~N(N為papers的total row)。第二個(gè)參數(shù)是Java生成的20個(gè)不重復(fù)的隨機(jī)數(shù),范圍是0-N。然后嵌套在for循環(huán)里,每1w條數(shù)據(jù)提交給數(shù)據(jù)庫(kù)一次。
這段代碼巧妙運(yùn)用limit的特性完成隨機(jī)選tuple,本來是暗暗得意的。自以為把所有的select都交給數(shù)據(jù)庫(kù)去做了,省去了通過jdbc的多次連接,應(yīng)該是很快就可以運(yùn)行完成的。哪知,插了不過10w條(10000*10)數(shù)據(jù),就耗時(shí)22分鐘之多。最終的實(shí)驗(yàn)需要插入400w條數(shù)據(jù),也就是說要花14h左右。
于是開始反思,不斷做寫類似的程序查找時(shí)間瓶頸,最終鎖定在select limit,這個(gè)操作極耗時(shí)間。當(dāng)初選用limit,原因在于:隨機(jī)生成的是數(shù)字,要把數(shù)字映射到tuple,也就是對(duì)應(yīng)到rowid;由于papers表的主鍵并非遞增int,所以默認(rèn)的rowid不存在。后來一想,可以在papers表上先增加一個(gè)auto_increment的temp列,完成citation插入后再刪除。這樣sql語(yǔ)句就改成了:
String sql = "insert into citation(pId1,pId2) values((select pId from papers where temp=?), (select pId from papers where temp=?))";
再一次插入10w條數(shù)據(jù),耗時(shí)38s。效率大幅提高,但不知道還可不可以進(jìn)一步優(yōu)化。
相關(guān)文章
MySQL忽略表名大小寫的2種方法實(shí)現(xiàn)
在 MySQL 中,默認(rèn)情況下表名是大小寫敏感的,本文主要介紹了MySQL忽略表名大小寫的2種方法實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下2024-03-03
SQL語(yǔ)句單引號(hào)與雙引號(hào)的使用方法
這篇文章主要介紹了SQL語(yǔ)句中單引號(hào)、雙引號(hào)的使用方法,分別講述,雖然說的是Insert語(yǔ)句,?但是Select、Update、Delete語(yǔ)句都是一樣的,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-03-03
Mysql存儲(chǔ)json格式的實(shí)現(xiàn)
本文主要介紹了Mysql存儲(chǔ)json格式的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-06-06
MySQL 5.6 & 5.7最優(yōu)配置文件模板(my.ini)
這篇文章主要介紹了MySQL 5.6 & 5.7最優(yōu)配置文件模板(my.ini),需要的朋友可以參考下2016-07-07
Windows10下mysql 5.7.17 安裝配置方法圖文教程
這篇文章主要為大家詳細(xì)介紹了Windows10下mysql5.7.17安裝配置方法圖文教程,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-02-02
mysql添加索引方法詳解(Navicat可視化加索引與sql語(yǔ)句加索引)
索引用來快速地尋找那些具有特定值的記錄,如果沒有索引,執(zhí)行查詢時(shí)MySQL必須從第一個(gè)記錄開始掃描整個(gè)表的所有記錄,直至找到符合要求的記錄,表里面的記錄數(shù)量越多,代價(jià)就越高,下面這篇文章主要給大家介紹了關(guān)于mysql添加索引的相關(guān)資料,需要的朋友可以參考下2022-11-11
mysql+Spring數(shù)據(jù)庫(kù)隔離級(jí)別與性能分析
數(shù)據(jù)庫(kù)隔離級(jí)別與Spring配置事務(wù)的聯(lián)系及性能影響,以下是個(gè)人理解,如果有瑕疵請(qǐng)及時(shí)指正2014-05-05
Mysql數(shù)據(jù)庫(kù)分庫(kù)分表全面瓦解
物理服務(wù)機(jī)的CPU、內(nèi)存、存儲(chǔ)設(shè)備、連接數(shù)等資源有限,某個(gè)時(shí)段大量連接同時(shí)執(zhí)行操作,會(huì)導(dǎo)致數(shù)據(jù)庫(kù)在處理上遇到性能瓶頸。為了解決這個(gè)問題,行業(yè)先驅(qū)門充分發(fā)揚(yáng)了分而治之的思想,對(duì)大庫(kù)表進(jìn)行分割2022-01-01
一臺(tái)linux主機(jī)啟動(dòng)多個(gè)MySQL數(shù)據(jù)庫(kù)的方法
這篇文章主要介紹了一臺(tái)linux主機(jī)啟動(dòng)多個(gè)MySQL數(shù)據(jù)庫(kù)的方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03

