總結(jié)一次C++ 程序優(yōu)化歷程
近期用到了一位師兄寫(xiě)的C++程序,總體功能良好。使用不同的數(shù)據(jù)測(cè)試,發(fā)現(xiàn)了一個(gè)明顯的缺點(diǎn):大數(shù)據(jù)量下,預(yù)處理過(guò)程耗時(shí)很長(zhǎng)。中科院的某計(jì)算集群,普通隊(duì)列中的程序運(yùn)行時(shí)間不能超過(guò)6個(gè)小時(shí)。而手上這套程序,大數(shù)據(jù)量下預(yù)處理就花了不止六個(gè)小時(shí),結(jié)果當(dāng)然是還沒(méi)開(kāi)始就被結(jié)束了。
和天河二號(hào)的工作人員聯(lián)系,確認(rèn)沒(méi)有執(zhí)行時(shí)間限制。于是開(kāi)通了天河二號(hào)的賬號(hào),把程序扔上去跑。執(zhí)行大數(shù)據(jù)量時(shí),程序莫名被kill。詢(xún)問(wèn)技術(shù)支持,得知是內(nèi)存耗盡,建議每個(gè)節(jié)點(diǎn)的進(jìn)程數(shù)少一點(diǎn)。如此折騰了兩次,大數(shù)據(jù)量的例子沒(méi)跑通,大部分時(shí)間都費(fèi)在預(yù)處理上,然后程序崩了,又要調(diào)整參數(shù)重新再來(lái)。
耗時(shí)長(zhǎng),最多是多花點(diǎn)機(jī)時(shí),問(wèn)題不大。但是沒(méi)跑通的情況下每次要等五六個(gè)小時(shí),然后才知道能否運(yùn)行,測(cè)試然后反饋的過(guò)程太低效。忍無(wú)可忍,就開(kāi)始進(jìn)行優(yōu)化吧!
第一步,找出耗時(shí)的點(diǎn)。原來(lái)的程序輸出日志用的cout,沒(méi)有附帶時(shí)間,不能通過(guò)日志發(fā)現(xiàn)耗時(shí)的點(diǎn)。為了找出性能關(guān)鍵點(diǎn),第一步是改進(jìn)log,在輸出中加上時(shí)間。寫(xiě)了一個(gè)Log類(lèi),替換掉cout,程序的輸出中就帶上時(shí)間了:
#include "../include/Log.hpp"
#include
#include
#include
#include
using namespace std;
namespace tlanyan {
string Log::datetimeFormat = "%F %T";
Log::Log()
{
}
void Log::info(const char* message) {
cout << getCurrentTime() << " [info] " << message << endl;
}
void Log::debug(const char* message) {
#if DEBUG
cout << getCurrentTime() << " [debug] " << message;
#endif;
}
const char* Log::getCurrentTime()
{
//locale::global(locale("zh_CN.utf8"));
time_t t = time(NULL);
char mbstr[512];
if (strftime(mbstr, sizeof(mbstr), Log::datetimeFormat.c_str(), localtime(&t))) {
return mbstr;
}
cerr << "獲取或格式化時(shí)間錯(cuò)誤!" << endl;
exit(1);
}
Log::~Log()
{
}
}
// 調(diào)用示例:
Log::info("program begins...");
通過(guò)查看Log,定位到了耗時(shí)長(zhǎng)的過(guò)程。
- 第一步,目測(cè)程序源代碼,找出問(wèn)題所在。該段代碼比較好理解,主要是進(jìn)行數(shù)據(jù)初始化和打標(biāo)簽。程序中規(guī)中矩,都是操控內(nèi)存中的數(shù)組,沒(méi)有磁盤(pán)、網(wǎng)絡(luò)、進(jìn)程通信等耗時(shí)調(diào)用。審查代碼中發(fā)現(xiàn)第一個(gè)問(wèn)題:內(nèi)存重分配。程序聲明了vector,沒(méi)有指定大小,后續(xù)代碼中使用push_back對(duì)數(shù)組的每一項(xiàng)進(jìn)行賦值。內(nèi)存分配和數(shù)據(jù)拷貝的代價(jià)是很大的,這應(yīng)該是一個(gè)性能點(diǎn)。修改代碼,聲明時(shí)指定數(shù)組大小。編譯并運(yùn)行程序,結(jié)果表明省下了30%的耗時(shí)。
- 第二步,統(tǒng)計(jì)代碼的工作量。耗時(shí)過(guò)程的初始化數(shù)據(jù)量,大概是整個(gè)數(shù)據(jù)量的10%,就算其中內(nèi)嵌了兩層循環(huán),也不應(yīng)該耗時(shí)如此多。為了查看是否有額外工作量,加入了計(jì)數(shù)器。運(yùn)行結(jié)果顯示,該段函數(shù)的計(jì)算量不大,耗時(shí)長(zhǎng)應(yīng)該有其他的原因。
- 第三步,根據(jù)經(jīng)驗(yàn)判斷是緩存失效導(dǎo)致。第一反應(yīng)是用valgrind查看緩存命中,但valgrind模擬運(yùn)行的效率太差,幾個(gè)小時(shí)后kill掉放棄了。目測(cè)程序源碼,發(fā)現(xiàn)很多數(shù)據(jù)都是從全局內(nèi)存讀取,沒(méi)有充分利用緩存。修改代碼,使用局部變量緩存全局?jǐn)?shù)據(jù),接下來(lái)代碼中的數(shù)據(jù)使用緩存數(shù)據(jù)。經(jīng)過(guò)測(cè)試,效果非常明顯,提升了50%的效率。
- 第四步,查找其他性能熱點(diǎn)。經(jīng)過(guò)幾次小的調(diào)優(yōu)測(cè)試,發(fā)現(xiàn)一些全局內(nèi)存訪問(wèn)不可避免(隨機(jī)訪問(wèn),無(wú)法利用緩存),按照目前的方式難以繼續(xù)優(yōu)化。要大幅降低耗時(shí)需要重寫(xiě)算法,目前無(wú)法保證對(duì)算法和程序意圖十分了解,遂暫時(shí)作罷。
優(yōu)化前后的結(jié)果對(duì)比:中等數(shù)據(jù)規(guī)模下,耗時(shí)從8'43"降到3'25";大數(shù)據(jù)量下,耗時(shí)從4h38'44"降到1h49'21"(注:使用自己的機(jī)器測(cè)試,CPU主頻3.46GHz,比中科院和天河二號(hào)集群的CPU主頻都要高,所以耗時(shí)短)。從數(shù)據(jù)看出,效果還是很明顯的。
以上就是C++ 程序優(yōu)化歷程總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于C++ 程序優(yōu)化的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
C語(yǔ)言實(shí)現(xiàn)簡(jiǎn)易連連看游戲
這篇文章主要為大家詳細(xì)介紹了C語(yǔ)言實(shí)現(xiàn)簡(jiǎn)易連連看游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09
利用C++求解八數(shù)碼問(wèn)題實(shí)例代碼
所謂八數(shù)碼問(wèn)題是指這樣一種游戲,將分別標(biāo)有數(shù)字1,2,3,…,8的八塊正方形數(shù)碼牌任意地放在一塊3×3的數(shù)碼盤(pán)上,放牌時(shí)要求不能重疊,下面這篇文章主要給大家介紹了關(guān)于利用C++求解八數(shù)碼問(wèn)題的相關(guān)資料,需要的朋友可以參考下2022-11-11
VSCode遠(yuǎn)程代碼開(kāi)發(fā)及DNS隧道端口轉(zhuǎn)發(fā)實(shí)現(xiàn)遠(yuǎn)程辦公代碼
這篇文章主要介紹了VSCode遠(yuǎn)程代碼開(kāi)發(fā)及DNS隧道端口轉(zhuǎn)發(fā)實(shí)現(xiàn)遠(yuǎn)程辦公,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-04-04

