Python?socket如何解析HTTP請求內(nèi)容
socket解析HTTP請求內(nèi)容
思路
1. 解析HTTP請求的頭部
HTTP請求頭部的結(jié)束符行為"\r\n",可以按行讀取HTTP請求頭的內(nèi)容,如果讀到一行為"\r\n",說明HTTP請求頭結(jié)束。
2. 請求頭里面含有Content-Length參數(shù)
如果HTTP請求里面有Content-Length參數(shù),說明HTTP請求的內(nèi)容大小是確定的,請求直接讀取Content-Length的值,然后讀取相應(yīng)字節(jié)的的內(nèi)容即可。
3. 請求頭里面含有Transfer-Encoding: chunked 參數(shù)
如果HTTP請求里面有Transfer-Encoding參數(shù),說明HTTP請求的內(nèi)容大小是不確定的,這種內(nèi)容的結(jié)束符是"0\r\n\r\n",因此可以按行讀取HTTP請求的內(nèi)容部分,如果連續(xù)讀到"0\r\n"和"\r\n"說明內(nèi)容讀取完畢。
代碼實現(xiàn)
代碼中: self._file 代表的是socket.makefile()
def get_http_content(self):
content_length = 0
transfer_encoding = False
while True:
req_line = self._file.readline()
req_line = str(req_line, "utf-8")
# 遇到http頭結(jié)束符
# 讀取http內(nèi)容
if req_line == "\r\n":
if content_length != 0:
content = self._file.read(content_length)
content = str(content, "utf-8")
self._content = content
return None
if transfer_encoding:
content = ""
self._file.readline()
while True:
line = self._file.readline()
line = str(line, "utf-8")
if line == "0\r\n":
sub_line = self._file.readline()
sub_line = str(sub_line, "utf-8")
if sub_line == "\r\n":
self._content = content
return None
else:
content += line
continue
self._content = False
# 頭文件沒有結(jié)束
# 并且沒有找到關(guān)于內(nèi)容大小的字段
else:
if content_length == 0 and transfer_encoding is False:
words = req_line.split()
if words[0] == "Content-Length:":
content_length = int(words[1])
if words[0] == "Transfer-Encoding:":
transfer_encoding = True
self._content = Falsesocket 模擬http請求
# coding: utf-8
import socket
from urllib.parse import urlparse
def get_url(url):
url = urlparse(url)
host = url.netloc
path = url.path
if path == "":
path = "/"
# 建立 socket 連接
client = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
client.connect((host, 80))
client.send("GET {} HTTP/1.1\r\nHost:{}\r\nConnection:close\r\n\r\n".format(path, host).encode("utf-8"))
data = b""
while True:
d = client.recv(1024)
if d:
data += d
else:
break
data = data.decode("utf-8")
html_data = data.split("\r\n\r\n")[1]
print(html_data)
client.close()
pass
if __name__ == '__main__':
get_url("http://www.baidu.com")以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python環(huán)境使用OpenCV檢測人臉實現(xiàn)教程
這篇文章主要介紹了Python環(huán)境使用OpenCV檢測人臉實現(xiàn)教程,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-10-10
python Xarray處理設(shè)置二維數(shù)組作為coordinates方式
這篇文章主要介紹了python Xarray處理設(shè)置二維數(shù)組作為coordinates方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-07-07
python 利用panda 實現(xiàn)列聯(lián)表(交叉表)
這篇文章主要介紹了python 利用panda 實現(xiàn)列聯(lián)表(交叉表),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-02-02

