通過實(shí)例淺析Python對比C語言的編程思想差異

更新時(shí)間：2015年08月30日 18:11:40 投稿：goldensun

這篇文章主要介紹了通過實(shí)例淺析Python對比C語言的編程思想差異,作為面向?qū)ο蠛兔嫦蜻^程的編程語言代表,二者的對比可謂經(jīng)典,需要的朋友可以參考下

我一直使用 Python，用它處理各種數(shù)據(jù)科學(xué)項(xiàng)目。 Python 以易用聞名。有編碼經(jīng)驗(yàn)者學(xué)習(xí)數(shù)天就能上手（或有效使用它）。

聽起來很不錯(cuò)，不過，如果你既用 Python，同時(shí)也是用其他語言，比如說 C 的話，或許會(huì)存在一些問題。

給你舉個(gè)我自己經(jīng)歷的例子吧。我精通命令式語言，如 C 和 C++。對古老經(jīng)典的語言如 Lisp 和 Prolog 能熟練使用。另外，我也用過 Java，Javascript 和 PHP 一段時(shí)間。（那么，學(xué)習(xí)） Python 對我來講不是很簡單嗎？事實(shí)上，只是看起來容易，我給自己挖了個(gè)坑：我像用 C 一樣去用 Python。

具體情況，請向下看。

一個(gè)最近的項(xiàng)目中，需要處理地理空間數(shù)據(jù)。給出（任務(wù)）是 gps 追蹤 25,000 個(gè)左右位置點(diǎn)，需要根據(jù)給定的經(jīng)緯度，重復(fù)定位距離最短的點(diǎn)。我第一反應(yīng)是，翻查（已經(jīng)實(shí)現(xiàn)的）計(jì)算已知經(jīng)緯度兩點(diǎn)間距離的代碼片段。代碼可以在 John D. Cook 寫的這篇 code available in the public domain 中找得到。

萬事俱備! 只要寫一段 Python 函數(shù)，返回與輸入坐標(biāo)距離最短的點(diǎn)索引（25,000 點(diǎn)數(shù)組中的索引），就萬事大吉了：

def closest_distance(lat,lon,trkpts):
  d = 100000.0
  best = -1
  r = trkpts.index
  for i in r:
    lati = trkpts.ix[i,'Lat']
    loni = trkpts.ix[i,'Lon']
    md = distance_on_unit_sphere(lat, lon, lati, loni)
    if d > md
      best = i
      d = md
  return best

其中， distance_on_unit_sphere 是 John D. Cook's 書中的函數(shù)，trkpts 是數(shù)組，包含 gps 追蹤的點(diǎn)坐標(biāo)（實(shí)際上，是 pandas 中的數(shù)據(jù)幀，注，pandas 是 python 第三方數(shù)據(jù)分析擴(kuò)展包）。

上述函數(shù)與我以前用 C 實(shí)現(xiàn)的函數(shù)基本相同。它遍歷（迭代）trkpts 數(shù)組，將迄今為止（距離給定坐標(biāo)位置）的距離最短的點(diǎn)索引值，保存到本地變量 best 中。

目前為止，情況還不錯(cuò)，雖然 Python 語法與 C 有很多差別，但寫這段代碼，并沒有花去我太多時(shí)間。

代碼寫起來快，但執(zhí)行起來卻很慢。例如，我指定428 個(gè)點(diǎn)，命名為waypoints（導(dǎo)航點(diǎn)，路點(diǎn)，導(dǎo)航路線中的關(guān)鍵點(diǎn)）。導(dǎo)航時(shí)，我要為每個(gè)導(dǎo)航點(diǎn) waypoint 找出距離最短的點(diǎn)。為 428 個(gè)導(dǎo)航點(diǎn) waypoint 查找距離最短點(diǎn)的程序，在我的筆記本上運(yùn)行了 3 分 6 秒。

之后，我改為查詢計(jì)算曼哈坦距離，這是近似值。我不再計(jì)算兩點(diǎn)間的精確距離，而是計(jì)算東西軸距離和南北軸距離。計(jì)算曼哈坦距離的函數(shù)如下:

def manhattan_distance(lat1, lon1, lat2, lon2):
  lat = (lat1+lat2)/2.0
  return abs(lat1-lat2)+abs(math.cos(math.radians(lat))*(lon1-lon2))

實(shí)際上，我用了一個(gè)更簡化的函數(shù)，忽略一個(gè)因素，即維度曲線上 1 度差距比經(jīng)度曲線上的 1 度差距要大得多。簡化函數(shù)如下：

def manhattan_distance1(lat1, lon1, lat2, lon2):
  return abs(lat1-lat2)+abs(lon1-lon2)

closest 函數(shù)修改為:

def closest_manhattan_distance1(lat,lon,trkpts):
  d = 100000.0
  best = -1
  r = trkpts.index
  for i in r:
    lati = trkpts.ix[i,'Lat']
    loni = trkpts.ix[i,'Lon']
    md = manhattan_distance1(lat, lon, lati, loni)
    if d > md
      best = i
      d = md
  return best

如果將 Manhattan_distance 函數(shù)體換進(jìn)來，速度還可以快些：

def closest_manhattan_distance2(lat,lon,trkpts):
  d = 100000.0
  best = -1
  r = trkpts.index
  for i in r:
    lati = trkpts.ix[i,'Lat']
    loni = trkpts.ix[i,'Lon']
    md = abs(lat-lati)+abs(lon-loni)
    if d > md
      best = i
      d = md
  return best

在計(jì)算的最短距離點(diǎn)上，用這個(gè)函數(shù)與用 John's 的函數(shù)效果相同。我希望我的直覺是對的。越簡單就越快。現(xiàn)在這個(gè)程序用了 2 分 37 秒。提速了 18%。很好，但還不夠激動(dòng)人心。

我決定正確使用 Python。這意味著要利用 pandas 支持的數(shù)組運(yùn)算。這些數(shù)組運(yùn)算操作源于 numpy 包。通過調(diào)用這些數(shù)組操作，代碼實(shí)現(xiàn)更簡練：

def closest(lat,lon,trkpts):
  cl = numpy.abs(trkpts.Lat - lat) + numpy.abs(trkpts.Lon - lon)
  return cl.idxmin()

該函數(shù)與之前函數(shù)的返回結(jié)果相同。在我的筆記本上運(yùn)行時(shí)間花費(fèi)了 0.5 秒。整整快了 300 倍! 300 倍，,也即30,000 %。不可思議。提速的原因是 numpy 數(shù)組操作運(yùn)算用 C 實(shí)現(xiàn)。因此，我們將最好的兩面結(jié)合起來了：我們得到 C 的速度和 Python 的簡潔性。

教訓(xùn)很明確：別用 C 的方式寫 Python 代碼。用 numpy 數(shù)組運(yùn)算，不要用數(shù)組遍歷。對我來說，這是思維上的轉(zhuǎn)變。

Update on July 2, 2015。文章討論在Hacker News。一些評(píng)論沒有注意到（missed ）我用到了 pandas 數(shù)據(jù)幀的情況。主要是它在數(shù)據(jù)分析中很常用。如果我只是要快速的查詢最短距離點(diǎn)，且我時(shí)間充分，我可以使用 C 或 C++ 編寫四叉樹（實(shí)現(xiàn)）。

Second update on July 2, 2015。有個(gè)評(píng)論提到 numba 也能對代碼提速。我就試了一下。

這是我的做法，與你的情況不一定相同。首先，要說明的是，不同的 python 安裝版，實(shí)驗(yàn)的結(jié)果不一定相同。我的實(shí)驗(yàn)環(huán)境是 windows 系統(tǒng)上安裝 Anaconda，同時(shí)也安裝了一些擴(kuò)展包?？赡苓@些包和 numba 存在干擾。.

首先，輸入下面的安裝命令，安裝 numba：

$ conda install numba

這是我命令行界面上的反饋：

之后我發(fā)現(xiàn)，numba 在 anaconda 安裝套件中已存在。也可能安裝指令有變更也說不定。

推薦的 numba 用法：

@jit
def closest_func(lat,lon,trkpts,func):
  d = 100000.0
  best = -1
  r = trkpts.index
  for i in r:
    lati = trkpts.ix[i,'Lat']
    loni = trkpts.ix[i,'Lon']
    md = abs(lat - lati) + abs(lon - loni)
    if d > md:
      #print d, dlat, dlon, lati, loni
      best = i
      d = md
  return best

我沒有發(fā)現(xiàn)運(yùn)行時(shí)間提高。我也嘗試了更積極的編譯參數(shù)設(shè)置：

@jit(nopython=True)
def closest_func(lat,lon,trkpts,func):
  d = 100000.0
  best = -1
  r = trkpts.index
  for i in r:
    lati = trkpts.ix[i,'Lat']
    loni = trkpts.ix[i,'Lon']
    md = abs(lat - lati) + abs(lon - loni)
    if d > md:
      #print d, dlat, dlon, lati, loni
      best = i
      d = md
  return best

這次運(yùn)行代碼時(shí)，出現(xiàn)一個(gè)錯(cuò)誤：

看來，pandas 比 numba 處理代碼更智能。

當(dāng)然，我也能花時(shí)間修改數(shù)據(jù)結(jié)構(gòu)，使 numba 能正確編譯（compile）?？墒牵覟槭裁匆@么干呢? 用 numpy 寫的代碼運(yùn)行的足夠快了。反正，我一直在用 numpy 和 pandas 。為什么不繼續(xù)用呢?

也有建議我用pypy。這當(dāng)然有意義，不過…我用的是托管服務(wù)器上的 Jupyter notebooks（注，在線瀏覽器的 python 交互式開發(fā)環(huán)境）。我用的是它提供的 python 內(nèi)核，也即，官方的（regular）Python 2.7.x 內(nèi)核。并沒有提供 Pypy 選擇。

也有建議用 Cython。好吧，如果我回頭要編譯代碼，那我干脆直接用 C 和 C++ 就好了。我用 python，是因?yàn)椋峁┝嘶?notebooks（注：網(wǎng)頁版在線開發(fā)環(huán)境）的交互式特性，可以快速原型實(shí)現(xiàn)。這卻不是 Cython 的設(shè)計(jì)目標(biāo)。

您可能感興趣的文章: