mysql 如何插入隨機(jī)字符串?dāng)?shù)據(jù)的實(shí)現(xiàn)方法

更新時(shí)間：2016年09月10日 13:39:48 投稿：mdxy-dxy

這篇文章主要介紹了mysql 如何插入隨機(jī)字符串?dāng)?shù)據(jù)的實(shí)現(xiàn)方法,需要的朋友可以參考下

應(yīng)用場(chǎng)景：
有時(shí)需要測(cè)試插入數(shù)據(jù)庫(kù)的記錄來測(cè)試，所以就非常需要用到這些腳本。

創(chuàng)建表：

CREATE TABLE `tables_a` (
  `id` int(10) NOT NULL DEFAULT '0',
  `name` char(50) DEFAULT NULL,
  PRIMARY KEY (`id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

創(chuàng)建產(chǎn)生隨機(jī)字符串的函數(shù)：

set global log_bin_trust_function_creators = 1;
DROP FUNCTION IF EXISTS rand_string;
DELIMITER //
CREATE FUNCTION rand_string(n INT)
RETURNS VARCHAR(255)
BEGIN
        DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';
        DECLARE return_str varchar(255) DEFAULT '';
        DECLARE i INT DEFAULT 0;
        WHILE i < n DO
                SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()*62 ),1));
                SET i = i +1;
        END WHILE;
        RETURN return_str;
END //
delimiter ;

創(chuàng)建插入表的procedure,x是從多少開始。y是多少結(jié)束，z是產(chǎn)生多少位隨機(jī)數(shù)

delimiter // 
create procedure test(x int(10),y int(10),z int(10))
begin
  DECLARE i INT DEFAULT x;
  while i<y do
 insert into tables_a values(i,rand_string(z));
 set i=i+1;
 end whi

mysql隨機(jī)數(shù)據(jù)生成并插入

dblp數(shù)據(jù)庫(kù)中引用信息很少，平均一篇論文引用0.2篇。使用dblp做實(shí)驗(yàn)數(shù)據(jù)集的某篇論文提到，可以隨機(jī)添加引用信息。受此啟發(fā)，我打算為每一篇論文都添加20篇隨機(jī)引用，于是就寫出了如下的sql語(yǔ)句：

String sql = "insert into citation(pId1,pId2) values( (select pId from papers limit ?,1),(select pId from papers limit ?,1))";

使用preparedstatement，以batch方式提交數(shù)據(jù)庫(kù)。

第一個(gè)參數(shù)是paper的rowid信息，從0~N（N為papers的total row）。第二個(gè)參數(shù)是Java生成的20個(gè)不重復(fù)的隨機(jī)數(shù)，范圍是0-N。然后嵌套在for循環(huán)里，每1w條數(shù)據(jù)提交給數(shù)據(jù)庫(kù)一次。

這段代碼巧妙運(yùn)用limit的特性完成隨機(jī)選tuple，本來是暗暗得意的。自以為把所有的select都交給數(shù)據(jù)庫(kù)去做了，省去了通過jdbc的多次連接，應(yīng)該是很快就可以運(yùn)行完成的。哪知，插了不過10w條（10000*10）數(shù)據(jù)，就耗時(shí)22分鐘之多。最終的實(shí)驗(yàn)需要插入400w條數(shù)據(jù)，也就是說要花14h左右。

于是開始反思，不斷做寫類似的程序查找時(shí)間瓶頸，最終鎖定在select limit，這個(gè)操作極耗時(shí)間。當(dāng)初選用limit，原因在于：隨機(jī)生成的是數(shù)字，要把數(shù)字映射到tuple，也就是對(duì)應(yīng)到rowid；由于papers表的主鍵并非遞增int，所以默認(rèn)的rowid不存在。后來一想，可以在papers表上先增加一個(gè)auto_increment的temp列，完成citation插入后再刪除。這樣sql語(yǔ)句就改成了：

String sql = "insert into citation(pId1,pId2) values((select pId from papers where temp=?), (select pId from papers where temp=?))";

再一次插入10w條數(shù)據(jù)，耗時(shí)38s。效率大幅提高，但不知道還可不可以進(jìn)一步優(yōu)化。