奇怪的PHP引用效率問(wèn)題分析
更新時(shí)間:2012年03月23日 00:46:23 作者:
最近寫(xiě)了一個(gè)小的php程序處理日志中的ip,需要將每個(gè)日志中出現(xiàn)的ip都接上一個(gè)出現(xiàn)時(shí)間戳的鏈表,于是按行遍歷log日志并寫(xiě)了一個(gè)update_timequeue的函數(shù)來(lái)插入時(shí)間戳節(jié)點(diǎn)
函數(shù)如下:
function update_timelist(&$arr,$timestamp,$threshold){
$timequeue = &$arr['timequeue'];
while(!empty($timequeue[0])&&($timestamp-$timequeue[0])>$threshold){
array_shift($timequeue);
}
array_push($timequeue, $timestamp);
if($arr['count']<count($timequeue)){
$arr['count'] = count($timequeue);
}
}
大家看出來(lái)這個(gè)函數(shù)有什么問(wèn)題了沒(méi)有?其實(shí),有很大一個(gè)問(wèn)題,就是函數(shù)中的:
$timequeue = &$arr['timequeue'];
這一行導(dǎo)致程序讀入22M數(shù)據(jù)并生成時(shí)間節(jié)點(diǎn)鏈表用了接近40秒,而刪掉該行改成直接使用$arr['timequeue']時(shí)間就縮短了30秒,只需要10秒左右就處理完了22M。
function update_timelist(&$arr,$timestamp,$threshold){
while(!empty($arr['timequeue'][0])&&($timestamp-$arr['timequeue'][0])>$threshold){
array_shift($arr['timequeue']);
}
array_push($arr['timequeue'], $timestamp);
if($arr['count']<count($arr['timequeue'])){
$arr['count'] = count($arr['timequeue']);
}
大家看出來(lái)是什么問(wèn)題了嗎?問(wèn)題就count函數(shù)上,沒(méi)有想到吧。PHP將變量指向的真正的內(nèi)容空間標(biāo)記為了引用類(lèi)型和非引用類(lèi)型,像下面的代碼:
$a = 'jb51.net';
$b = $a;
$c = $b;
實(shí)際占用內(nèi)存空間只有一份,因?yàn)镻HP的zend引擎使用copy on writing的機(jī)制,只在$b,$c修改的時(shí)候才會(huì)復(fù)制一份'jb51.net'過(guò)來(lái),此時(shí)'jb51.net'的內(nèi)容空間類(lèi)型為非引用類(lèi)型,如果改為下面的代碼:
$a = 'jb51.net';
$b = $a;
$c = &$a;
這個(gè)會(huì)有什么變化?仍然是一份內(nèi)存空間存放'jb51.net'嗎?不是,因?yàn)?c為$a的引用,$a的指向的存儲(chǔ)空間需要標(biāo)記為引用類(lèi)型,那么必須為$b單獨(dú)復(fù)制一份'jb51.net'才行了,因?yàn)?b指向的是非引用類(lèi)型。
我們可以這樣理解,$c現(xiàn)在是$a的引用了,如果$b仍然執(zhí)行$a的空間那么修改$c將導(dǎo)致$b也修改,所以此時(shí)一旦出現(xiàn)引用即使沒(méi)有寫(xiě)操作也必須復(fù)制一份了。也可以這樣理解,php對(duì)變量指向的內(nèi)存空間只有非引用和引用兩種類(lèi)型,兩種類(lèi)型不能混合,不能轉(zhuǎn)移。如果什么地方需要改變內(nèi)存空間的狀態(tài)則需要copy一份了。
下面就說(shuō)明為什么多了$timequeue = &$arr['timequeue']會(huì)導(dǎo)致count變慢,還記得c函數(shù)的調(diào)用過(guò)程嗎?實(shí)際我們傳入的參數(shù)需要copy一份拷貝傳入,php也一樣,但是由于copy on writing機(jī)制使得count在傳入非引用類(lèi)型時(shí)是不會(huì)真正copy的,但是$timequeue = &$arr['timequeue']將$timequeue的內(nèi)存空間指定為了引用類(lèi)型,而count需要非引用類(lèi)型,這樣就導(dǎo)致count需要copy一份$arr['timequeue']了。直接傳入$arr['timequeue']為什么沒(méi)有問(wèn)題?count當(dāng)然是用了copy on writing的機(jī)制,array_shift和array_push呢?他們是傳入的引用啊,不用擔(dān)心這不是修改了$arr['timequeue']的類(lèi)型而是真正的傳入了$arr['timequeue']的一個(gè)別名。
對(duì)于PHP我也是剛剛開(kāi)始學(xué)習(xí),上面的分析不一定正確,也不一定全面。大家可以在我的主頁(yè)發(fā)郵件留言與我交流。
復(fù)制代碼 代碼如下:
function update_timelist(&$arr,$timestamp,$threshold){
$timequeue = &$arr['timequeue'];
while(!empty($timequeue[0])&&($timestamp-$timequeue[0])>$threshold){
array_shift($timequeue);
}
array_push($timequeue, $timestamp);
if($arr['count']<count($timequeue)){
$arr['count'] = count($timequeue);
}
}
大家看出來(lái)這個(gè)函數(shù)有什么問(wèn)題了沒(méi)有?其實(shí),有很大一個(gè)問(wèn)題,就是函數(shù)中的:
$timequeue = &$arr['timequeue'];
這一行導(dǎo)致程序讀入22M數(shù)據(jù)并生成時(shí)間節(jié)點(diǎn)鏈表用了接近40秒,而刪掉該行改成直接使用$arr['timequeue']時(shí)間就縮短了30秒,只需要10秒左右就處理完了22M。
復(fù)制代碼 代碼如下:
function update_timelist(&$arr,$timestamp,$threshold){
while(!empty($arr['timequeue'][0])&&($timestamp-$arr['timequeue'][0])>$threshold){
array_shift($arr['timequeue']);
}
array_push($arr['timequeue'], $timestamp);
if($arr['count']<count($arr['timequeue'])){
$arr['count'] = count($arr['timequeue']);
}
大家看出來(lái)是什么問(wèn)題了嗎?問(wèn)題就count函數(shù)上,沒(méi)有想到吧。PHP將變量指向的真正的內(nèi)容空間標(biāo)記為了引用類(lèi)型和非引用類(lèi)型,像下面的代碼:
復(fù)制代碼 代碼如下:
$a = 'jb51.net';
$b = $a;
$c = $b;
實(shí)際占用內(nèi)存空間只有一份,因?yàn)镻HP的zend引擎使用copy on writing的機(jī)制,只在$b,$c修改的時(shí)候才會(huì)復(fù)制一份'jb51.net'過(guò)來(lái),此時(shí)'jb51.net'的內(nèi)容空間類(lèi)型為非引用類(lèi)型,如果改為下面的代碼:
復(fù)制代碼 代碼如下:
$a = 'jb51.net';
$b = $a;
$c = &$a;
這個(gè)會(huì)有什么變化?仍然是一份內(nèi)存空間存放'jb51.net'嗎?不是,因?yàn)?c為$a的引用,$a的指向的存儲(chǔ)空間需要標(biāo)記為引用類(lèi)型,那么必須為$b單獨(dú)復(fù)制一份'jb51.net'才行了,因?yàn)?b指向的是非引用類(lèi)型。
我們可以這樣理解,$c現(xiàn)在是$a的引用了,如果$b仍然執(zhí)行$a的空間那么修改$c將導(dǎo)致$b也修改,所以此時(shí)一旦出現(xiàn)引用即使沒(méi)有寫(xiě)操作也必須復(fù)制一份了。也可以這樣理解,php對(duì)變量指向的內(nèi)存空間只有非引用和引用兩種類(lèi)型,兩種類(lèi)型不能混合,不能轉(zhuǎn)移。如果什么地方需要改變內(nèi)存空間的狀態(tài)則需要copy一份了。
下面就說(shuō)明為什么多了$timequeue = &$arr['timequeue']會(huì)導(dǎo)致count變慢,還記得c函數(shù)的調(diào)用過(guò)程嗎?實(shí)際我們傳入的參數(shù)需要copy一份拷貝傳入,php也一樣,但是由于copy on writing機(jī)制使得count在傳入非引用類(lèi)型時(shí)是不會(huì)真正copy的,但是$timequeue = &$arr['timequeue']將$timequeue的內(nèi)存空間指定為了引用類(lèi)型,而count需要非引用類(lèi)型,這樣就導(dǎo)致count需要copy一份$arr['timequeue']了。直接傳入$arr['timequeue']為什么沒(méi)有問(wèn)題?count當(dāng)然是用了copy on writing的機(jī)制,array_shift和array_push呢?他們是傳入的引用啊,不用擔(dān)心這不是修改了$arr['timequeue']的類(lèi)型而是真正的傳入了$arr['timequeue']的一個(gè)別名。
對(duì)于PHP我也是剛剛開(kāi)始學(xué)習(xí),上面的分析不一定正確,也不一定全面。大家可以在我的主頁(yè)發(fā)郵件留言與我交流。
相關(guān)文章
PHP Warning: Module ''modulename'' already loaded in問(wèn)題解決辦法
這篇文章主要介紹了PHP Warning: Module 'modulename' already loaded in問(wèn)題解決辦法,本文總結(jié)了兩種情況,需要的朋友可以參考下2015-03-03
全局記錄程序片段的運(yùn)行時(shí)間 正確找到程序邏輯耗時(shí)多的斷點(diǎn)
全局記錄程序片段的運(yùn)行時(shí)間 正確找到程序邏輯耗時(shí)多的斷點(diǎn),需要的朋友可以參考下。2011-01-01
php實(shí)現(xiàn)獲取文章內(nèi)容第一張圖片的方法
這篇文章主要介紹了php實(shí)現(xiàn)獲取文章內(nèi)容第一張圖片的方法,涉及對(duì)正則表達(dá)式的操作,非常具有實(shí)用價(jià)值,需要的朋友可以參考下2014-11-11
php后退一頁(yè)表單內(nèi)容保存實(shí)現(xiàn)方法
php表單在提交之后再后退,表單的內(nèi)容默認(rèn)是被清空的(使用session_start的時(shí)候),解決方法是在session_start() 之后,字符輸出之前寫(xiě)上header(Cache-control: private)2012-06-06
PHP并發(fā)多進(jìn)程處理利器Gearman使用介紹
這篇文章主要介紹了PHP并發(fā)多進(jìn)程處理利器Gearman使用介紹,需要的朋友可以參考下2016-05-05
PHP經(jīng)典設(shè)計(jì)模式之依賴(lài)注入定義與用法詳解
這篇文章主要介紹了PHP經(jīng)典設(shè)計(jì)模式之依賴(lài)注入,結(jié)合實(shí)例形式分析了php依賴(lài)注入的定義、原理與用法,需要的朋友可以參考下2019-05-05

