搞定這套Python爬蟲(chóng)面試題(面試會(huì)so easy)
先來(lái)一份完整的爬蟲(chóng)工程師面試考點(diǎn):

一、 Python 基本功
1、簡(jiǎn)述Python 的特點(diǎn)和優(yōu)點(diǎn)
Python 是一門(mén)開(kāi)源的解釋性語(yǔ)言,相比 Java C++ 等語(yǔ)言,Python 具有動(dòng)態(tài)特性,非常靈活。
2、Python 有哪些數(shù)據(jù)類(lèi)型?
Python 有 6 種內(nèi)置的數(shù)據(jù)類(lèi)型,其中不可變數(shù)據(jù)類(lèi)型是Number(數(shù)字), String(字符串), Tuple(元組),可變數(shù)據(jù)類(lèi)型是 List(列表),Dict(字典),Set(集合)。
3、列表和元組的區(qū)別
列表和元組都是可迭代對(duì)象,能夠?qū)ζ溥M(jìn)行循環(huán)、切片等,但元組 tuple 是不可變的。元組不可變的特性,使得它可以成為字典 Dict 中的鍵。
4、Python 是如何運(yùn)行的
CPython:
Python 程序運(yùn)行時(shí),會(huì)先進(jìn)行編譯,將 .py 文件中的代碼編譯成字節(jié)碼(byte code),編譯結(jié)果儲(chǔ)存在內(nèi)存的 PyCodeObject 中,然后由 Python 虛擬機(jī)解釋運(yùn)行。當(dāng)程序運(yùn)行結(jié)束后,Python 解釋器會(huì)將 PyCodeObject 保存到 pyc 文件中。每一次運(yùn)行時(shí) Python 都會(huì)先尋找與文件同名的 pyc 文件,如果 pyc 存在則比對(duì)修改記錄,根據(jù)修改記錄決定直接運(yùn)行或再次編譯后運(yùn)行,最后生成 pyc 文件 。
5、Python 運(yùn)行速度慢的原因
a). Python 不是強(qiáng)類(lèi)型的語(yǔ)言,所以解釋器運(yùn)行時(shí)遇到變量以及數(shù)據(jù)類(lèi)型轉(zhuǎn)換、比較操作、引用變量時(shí)都需要檢查其數(shù)據(jù)類(lèi)型。
b). Python 的編譯器啟動(dòng)速度比 JAVA 快,但幾乎每次都要啟動(dòng)編譯。
c). Python 的對(duì)象模型會(huì)導(dǎo)致訪問(wèn)內(nèi)存效率變低。Numpy 的指針指向緩存區(qū)數(shù)據(jù)的值,而 Python 的指針指向緩存對(duì)象,再通過(guò)緩存對(duì)象指向數(shù)據(jù):

6、面對(duì) Python 慢的問(wèn)題,有什么解決辦法
a). 可以使用其他的解釋器,比如 PyPy 和 Jython 等。
b). 如果對(duì)性能要求較高且靜態(tài)類(lèi)型變量較多的應(yīng)用程序,可以使用 CPython。
c). 對(duì)于 IO 操作多的應(yīng)用程序,Python 提供 asyncio 模塊提高異步能力。
7、描述一下全局解釋器鎖 GIL
每個(gè)線(xiàn)程在執(zhí)行時(shí)候都需要先獲取 GIL,保證同一時(shí)刻只有一個(gè)線(xiàn)程可以執(zhí)行代碼,即同一時(shí)刻只有一個(gè)線(xiàn)程使用 CPU,也就是說(shuō)多線(xiàn)程并不是真正意義上的同時(shí)執(zhí)行。但是在 IO 操作時(shí),是可以釋放鎖的(這也是 Python 能夠異步的原因)。而且如果想要利用多核 CPU,那么可以使用多進(jìn)程。
8、深拷貝 淺拷貝
深拷貝是將對(duì)象本身復(fù)制給另一個(gè)對(duì)象,淺拷貝則是將對(duì)象的引用復(fù)制給另一個(gè)對(duì)象。所以當(dāng)復(fù)制后的對(duì)象改變時(shí),深拷貝的原對(duì)象值不會(huì)改變,而淺拷貝原對(duì)象的值會(huì)被改變。
9、is 和 == 的區(qū)別
is 表示的是對(duì)象標(biāo)示符(object identity),而 == 表示的是相等(equality)。
is 的作用是用來(lái)檢查對(duì)象的標(biāo)示符是否一致,也就是比較兩個(gè)對(duì)象在內(nèi)存中的地址是否一樣,而 == 是用來(lái)檢查兩個(gè)對(duì)象是否相等。但是為了提高系統(tǒng)性能,對(duì)于較小的字符串 Python 會(huì)保留其值的一個(gè)副本,當(dāng)創(chuàng)建新的字符串的時(shí)候直接指向該副本即可。如:
a = 8
b = 8
a is b
10、文件讀寫(xiě)
簡(jiǎn)述文件讀取時(shí) read 、readline、readlines 的區(qū)別和作用
他們的區(qū)別除了讀取內(nèi)容范圍不同外,返回的內(nèi)容類(lèi)型也不同。
read()會(huì)讀取整個(gè)文件,將讀取到底的文件內(nèi)容放到一個(gè)字符串變量,返回 str 類(lèi)型。
readline()讀取一行內(nèi)容,放到一個(gè)字符串變量,返回 str 類(lèi)型。
readlines() 讀取文件所有內(nèi)容,按行為單位放到一個(gè)列表中,返回 list 類(lèi)型。
11、請(qǐng)用一行代碼實(shí)現(xiàn)
請(qǐng)分別使用匿名函數(shù)和推導(dǎo)式這兩種方式將 [0, 1, 2, 3, 4, 5] 中的元素求乘積,并打印輸出元組。
print(tuple(map(lambda x: x * x, [0, 1, 2, 3, 4, 5]))) print(tuple(i*i for i in [0, 1, 2, 3, 4, 5]))
12、請(qǐng)用一行代碼實(shí)現(xiàn)
用 reduce 計(jì)算 n 的階乘(n!=1×2×3×...×n)
print(reduce(lambda x, y: x*y, range(1, n)))
13、請(qǐng)用一行代碼實(shí)現(xiàn)
篩選并打印輸出 100 以?xún)?nèi)能被 3 整除的數(shù)的集合
print(set(filter(lambda n: n % 3 == 0, range(1, 100))))
14、請(qǐng)用一行代碼實(shí)現(xiàn)
text = 'Obj{"Name": "pic", "data": [{"name": "async", "number": 9, "price": "$3500"}, {"name": "Wade", "number": 3, "price": "$5500"}], "Team": "Hot"'
打印文本中的球員身價(jià)元組,如 ( 5500)
print(tuple(i.get("price") for i in json.loads(re.search(r'[(.*)]', text).group(0))))
15、請(qǐng)寫(xiě)出遞歸的基本骨架
def recursions(n): if n == 1: # 退出條件 return 1 # 繼續(xù)遞歸 return n * recursions(n - 1)
16、切片
請(qǐng)寫(xiě)出下方輸出結(jié)果
tpl = [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] print(tpl[3:]) print(tpl[:3]) print(tpl[::5]) print(tpl[-3]) print(tpl[3]) print(tpl[::-5]) print(tpl[:]) del tpl[3:] print(tpl) print(tpl.pop()) tpl.insert(3, 3) print(tpl) [15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] [0, 5, 10] [0, 25, 50, 75] 85 15 [95, 70, 45, 20] [0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95] [0, 5, 10] 10 [0, 5, 3]
17、文件路徑
打印輸出當(dāng)前文件所在目錄路徑
import os print(os.path.dirname(os.path.abspath(__file__)))
打印輸出當(dāng)前文件路徑
import os print(os.path.abspath(__file__))
打印輸出當(dāng)前文件上兩層文件目錄路徑
import os print(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))
18、請(qǐng)寫(xiě)出運(yùn)行結(jié)果,并回答問(wèn)題
tpl = (1, 2, 3, 4, 5) apl = (6, 7, 8, 9) print(tpl.__add__(apl))
問(wèn)題:tpl 的值發(fā)生變化了嗎?
運(yùn)行結(jié)果如下:
(1, 2, 3, 4, 5, 6, 7, 8, 9)
答:元組是不可變的,它是生成新的對(duì)象
19、請(qǐng)寫(xiě)出運(yùn)行結(jié)果,并回答問(wèn)題
name = ('James', 'Wade', 'Kobe')
team = ['A', 'B', 'C']
tpl = {name: team}
print(tpl)
apl = {team: name}
print(apl)
問(wèn)題:這段代碼能運(yùn)行完畢嗎?為什么?它的運(yùn)行結(jié)果是?
答:這段代碼不能完整運(yùn)行,它會(huì)在 apl 處拋出異常,因?yàn)樽值涞逆I只能是不可變對(duì)象,而 list 是可變的,所以不能作為字典的鍵。運(yùn)行結(jié)果是:
{('James', 'Wade', 'Kobe'): ['A', 'B', 'C']}
TypeError
20、裝飾器
請(qǐng)寫(xiě)出裝飾器代碼骨架
def log(func):
def wrapper(*args, **kw):
print('call %s():' % func.__name__)
return func(*args, **kw)
return wrapper
簡(jiǎn)述裝飾器在 Python 中的作用:
在不改動(dòng)原函數(shù)代碼的情況下,為其增加新的功能。
21、多進(jìn)程 多線(xiàn)程
多進(jìn)程更穩(wěn)定還是多線(xiàn)程更穩(wěn)定?為什么?
多進(jìn)程更穩(wěn)定,它們是獨(dú)立運(yùn)行的,不會(huì)因?yàn)橐粋€(gè)崩潰而影響其他進(jìn)程。
多線(xiàn)程的致命缺點(diǎn)是什么?
因?yàn)樗芯€(xiàn)程共享進(jìn)程的內(nèi)存,所以任何一個(gè)線(xiàn)程掛掉都可能直接造成整個(gè)進(jìn)程崩潰。
進(jìn)程間通信有哪些方式?
共享變量、隊(duì)列、管道。
好了,本文就給大家介紹到這里,祝大家面試so easy!
相關(guān)文章
基于python,Matplotlib繪制函數(shù)的等高線(xiàn)與三維圖像
這篇文章主要介紹了基于python,Matplotlib繪制函數(shù)的等高線(xiàn)與三維圖像,函數(shù)的等高線(xiàn)及其三維圖像的可視化方法,下面一起來(lái)學(xué)習(xí)具體內(nèi)容吧,需要的小伙伴可以參考一下2022-01-01
遷移現(xiàn)有的python項(xiàng)目到pyproject.toml
本文將詳細(xì)介紹將現(xiàn)有的?Python?項(xiàng)目遷移到?pyproject.toml,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2025-04-04
python爬蟲(chóng)模擬登錄之圖片驗(yàn)證碼實(shí)現(xiàn)詳解
眾所周知python是一個(gè)很強(qiáng)大的語(yǔ)言,它擁有眾多的庫(kù),今天我嘗試了使用python進(jìn)行驗(yàn)證碼的識(shí)別,下面這篇文章主要給大家介紹了關(guān)于python爬蟲(chóng)模擬登錄之圖片驗(yàn)證碼實(shí)現(xiàn)的相關(guān)資料,需要的朋友可以參考下2022-08-08
JSONLINT:python的json數(shù)據(jù)驗(yàn)證庫(kù)實(shí)例解析
本文介紹的 jsonlint 啟發(fā)自 python 的表單驗(yàn)證工具 wtforms,wtforms 通過(guò)繼承 Form 類(lèi)也能進(jìn)行 json 數(shù)據(jù)驗(yàn)證,下面通過(guò)一些例子給大家詳細(xì)介紹,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友參考下吧2017-11-11
利用Python代碼實(shí)現(xiàn)模擬動(dòng)態(tài)指針時(shí)鐘
這篇文章主要為大家詳細(xì)介紹了如何利用python和C++代碼實(shí)現(xiàn)模擬動(dòng)態(tài)指針時(shí)鐘,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起了解一下2023-04-04
Pandas對(duì)每個(gè)分組應(yīng)用apply函數(shù)的實(shí)現(xiàn)
這篇文章主要介紹了Pandas對(duì)每個(gè)分組應(yīng)用apply函數(shù)的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-12-12
Python使用Opencv打開(kāi)筆記本電腦攝像頭報(bào)錯(cuò)解問(wèn)題及解決
這篇文章主要介紹了Python使用Opencv打開(kāi)筆記本電腦攝像頭報(bào)錯(cuò)解問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-06-06
python 尋找list中最大元素對(duì)應(yīng)的索引方法
今天小編就為大家分享一篇python 尋找list中最大元素對(duì)應(yīng)的索引方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-06-06
np.where()[0] 和 np.where()[1]的具體使用
這篇文章主要介紹了np.where()[0] 和 np.where()[1]的具體使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03

