python字符串Intern機制詳解
字符串在 Python 中是最簡單也是最常用的數(shù)據(jù)類型之一,在 CPython 中字符串的實現(xiàn)原理使用了一種叫做 Intern(字符串駐留)的技術來提高字符串效率。究竟什么是 intern 機制,這種機制又是通過什么方式來提高字符串效率的呢?希望這篇文章能夠拋磚引玉。
先來看一段代碼:
>>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>> id(s3) 80325968L >>> id(s4) 80326048L
s3 和 s4 雖然值是一樣的,但確確實實是兩個不同的字符串對象,Python 會為它們倆各自分配一段內存空間,假設程序中存在大量值相同的字符串,系統(tǒng)就不得不為每個字符串重復地分配內存空間,顯然,對系統(tǒng)來說是一種無謂的資源浪費。為了解決這種問題,Python 引入了 intern 機制。

再來看:
>>> s3 = intern('hello!')
>>> s4 = intern('hello!')
>>> s3 is s4
True
>>> id(s3)
80325968L
>>> id(s4)
80325968L
intern 是 Python 中的一個內建函數(shù),該函數(shù)的作用就是對字符串進行 intern 機制處理,處理后返回字符串對象。我們發(fā)現(xiàn)但凡是值相同的字符串經過 intern 機制處理之后,返回的都是同一個字符串對象,這種方式在處理大數(shù)據(jù)的時候無疑能節(jié)省更多的內存空間,系統(tǒng)無需為相同的字符串重復分配內存,對于值相同的字符串共用一個對象即可。

其實,實現(xiàn) Intern 機制的方式非常簡單,就是通過維護一個字符串儲蓄池,這個池子是一個字典結構,如果字符串已經存在于池子中了就不再去創(chuàng)建新的字符串,直接返回之前創(chuàng)建好的字符串對象,如果之前還沒有加入到該池子中,則先構造一個字符串對象,并把這個對象加入到池子中去,方便下一次獲取,用偽代碼就可以描述為:
intern_pool = {}
def intern(s):
if s in intern_pool:
return intern_pool[s]
else:
obj = PyStringObject(s)
intern_pool[s] = obj
return obj
在主流面向對象的編程語言中intern 機制對于處理字符串已經成為一種標配,通過 intern 機制可以提高字符串的處理效率,當然,解釋器內部很對 intern 機制的使用策略是有考究的,有些場景會自動使用 intern ,有些地方需要通過手動方式才能啟動。比如:
>>> s1 = "hello" >>> s2 = "hello" >>> s1 is s2 True >>> id(s1) 72320704L >>> id(s2) 72320704L
這段代碼就是 Python自動使用了intern機制的結果。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
pycharm 使用心得(九)解決No Python interpreter selected的問題
PyCharm 是由JetBrains打造的一款 Python IDE。具有智能代碼編輯器,能理解 Python 的特性并提供卓越的生產力推進工具:自動代碼格式化、代碼完成、重構、自動導入和一鍵代碼導航等。這些功能在先進代碼分析程序的支持下,使 PyCharm 成為 Python 專業(yè)開發(fā)人員和剛起步人員使用的有力工具。2014-06-06
python的scrapy框架之Pipeline文件的用法詳解
這篇文章主要介紹了python的scrapy框架之Pipeline文件的用法詳解,Pipeline是一個獨立的模塊,用于處理從Spider中提取的Item對象,實現(xiàn)對數(shù)據(jù)的進一步處理、存儲和清洗等操作,下面將詳細介紹Scrapy框架中Pipeline的用法,需要的朋友可以參考下2023-10-10

