python TCP Socket的粘包和分包的處理詳解

更新時間：2018年02月09日 16:52:04 作者：閼男秀

這篇文章主要介紹了python TCP Socket的粘包和分包的處理詳解，分享了相關代碼示例，小編覺得還是挺不錯的，具有一定借鑒價值，需要的朋友可以參考下

概述

在進行TCP Socket開發(fā)時，都需要處理數據包粘包和分包的情況。本文詳細講解解決該問題的步驟。使用的語言是Python。實際上解決該問題很簡單，在應用層下，定義一個協(xié)議：消息頭部+消息長度+消息正文即可。

那什么是粘包和分包呢？

關于分包和粘包

粘包：發(fā)送方發(fā)送兩個字符串”hello”+”world”，接收方卻一次性接收到了”helloworld”。

分包：發(fā)送方發(fā)送字符串”helloworld”，接收方卻接收到了兩個字符串”hello”和”world”。

雖然socket環(huán)境有以上問題，但是TCP傳輸數據能保證幾點：

順序不變。例如發(fā)送方發(fā)送hello，接收方也一定順序接收到hello，這個是TCP協(xié)議承諾的，因此這點成為我們解決分包、黏包問題的關鍵。
分割的包中間不會插入其他數據。

因此如果要使用socket通信，就一定要自己定義一份協(xié)議。目前最常用的協(xié)議標準是：消息頭部（包頭）+消息長度+消息正文

TCP為什么會分包

TCP是以段（Segment）為單位發(fā)送數據的，建立TCP鏈接后，有一個最大消息長度（MSS）。如果應用層數據包超過MSS，就會把應用層數據包拆分，分成兩個段來發(fā)送。這個時候接收端的應用層就要拼接這兩個TCP包，才能正確處理數據。

相關的，路由器有一個MTU（最大傳輸單元），一般是1500字節(jié)，除去IP頭部20字節(jié)，留給TCP的就只有MTU-20字節(jié)。所以一般TCP的MSS為MTU-20=1460字節(jié)。

當應用層數據超過1460字節(jié)時，TCP會分多個數據包來發(fā)送。

擴展閱讀

TCP的RFC定義MSS的默認值是536，這是因為 RFC 791里說了任何一個IP設備都得最少接收576尺寸的大?。▽嶋H上來說576是撥號的網絡的MTU，而576減去IP頭的20個字節(jié)就是536）。
TCP為什么會粘包

有時候，TCP為了提高網絡的利用率，會使用一個叫做Nagle的算法。該算法是指，發(fā)送端即使有要發(fā)送的數據，如果很少的話，會延遲發(fā)送。如果應用層給TCP傳送數據很快的話，就會把兩個應用層數據包“粘”在一起，TCP最后只發(fā)一個TCP數據包給接收端。

開發(fā)環(huán)境

Python版本：3.5.1
操作系統(tǒng)：Windows 10 x64

消息頭部（包含消息長度）

消息頭部不一定只能是一個字節(jié)比如0xAA什么的，也可以包含協(xié)議版本號，指令等，當然也可以把消息長度合并到消息頭部里，唯一的要求是包頭長度要固定的，包體則可變長。下面是我自定義的一個包頭：

版本號（ver）	消息長度（bodySize）	指令（cmd）

版本號，消息長度，指令數據類型都是無符號32位整型變量，于是這個消息長度固定為4×3=12字節(jié)。在Python由于沒有類型定義，所以一般是使用struct模塊生成包頭。示例：

import struct
import json

ver = 1
body = json.dumps(dict(hello="world"))
print(body) # {"hello": "world"}
cmd = 101
header = [ver, body.__len__(), cmd]
headPack = struct.pack("!3I", *header)
print(headPack) # b'\x00\x00\x00\x01\x00\x00\x00\x12\x00\x00\x00e'

關于用自定義結束符分割數據包

有的人會想用自定義的結束符分割每一個數據包，這樣傳輸數據包時就不需要指定長度甚至也不需要包頭了。但是如果這樣做，網絡傳輸性能損失非常大，因為每一讀取一個字節(jié)都要做一次if判斷是否是結束符。所以建議還是選擇消息頭部+消息長度+消息正文這種方式。

而且，使用自定義結束符的時候，如果消息正文中出現這個符號，就會把后面的數據截止，這個時候還需要處理符號轉義，類比于\r\n的反斜杠。所以非常不建議使用結束符分割數據包。

消息正文

消息正文的數據格式可以使用Json格式，這里一般是用來存放獨特信息的數據。在下面代碼中，我使用{"hello","world"}數據來測試。在Python使用json模塊來生成json數據

Python示例

下面使用Python代碼展示如何處理TCP Socket的粘包和分包。核心在于用一個FIFO隊列接收緩沖區(qū)dataBuffer和一個小while循環(huán)來判斷。

具體流程是這樣的：把從socket讀取出來的數據放到dataBuffer后面（入隊），然后進入小循環(huán)，如果dataBuffer內容長度小于消息長度（bodySize），則跳出小循環(huán)繼續(xù)接收；大于消息長度，則從緩沖區(qū)讀取包頭并獲取包體的長度，再判斷整個緩沖區(qū)是否大于消息頭部+消息長度，如果小于則跳出小循環(huán)繼續(xù)接收，如果大于則讀取包體的內容，然后處理數據，最后再把這次的消息頭部和消息正文從dataBuffer刪掉（出隊）。

下面用Markdown畫了一個流程圖。

服務器端代碼

# Python Version:3.5.1
import socket
import struct

HOST = ''
PORT = 1234

dataBuffer = bytes()
headerSize = 12

sn = 0
def dataHandle(headPack, body):
  global sn
  sn += 1
  print("第%s個數據包" % sn)
  print("ver:%s, bodySize:%s, cmd:%s" % headPack)
  print(body.decode())
  print("")

if __name__ == '__main__':
  with socket.socket(socket.AF_INET, socket.SOCK_STREAM) as s:
    s.bind((HOST, PORT))
    s.listen(1)
    conn, addr = s.accept()
    with conn:
      print('Connected by', addr)
      while True:
        data = conn.recv(1024)
        if data:
          # 把數據存入緩沖區(qū)，類似于push數據
          dataBuffer += data
          while True:
            if len(dataBuffer) < headerSize:
              print("數據包（%s Byte）小于消息頭部長度，跳出小循環(huán)" % len(dataBuffer))
              break

            # 讀取包頭
            # struct中:!代表Network order，3I代表3個unsigned int數據
            headPack = struct.unpack('!3I', dataBuffer[:headerSize])
            bodySize = headPack[1]

            # 分包情況處理，跳出函數繼續(xù)接收數據
            if len(dataBuffer) < headerSize+bodySize :
              print("數據包（%s Byte）不完整（總共%s Byte），跳出小循環(huán)" % (len(dataBuffer), headerSize+bodySize))
              break
            # 讀取消息正文的內容
            body = dataBuffer[headerSize:headerSize+bodySize]

            # 數據處理
            dataHandle(headPack, body)

            # 粘包情況的處理
            dataBuffer = dataBuffer[headerSize+bodySize:] # 獲取下一個數據包，類似于把數據pop出

測試服務器端的客戶端代碼

下面附上測試粘包和分包的客戶端代碼

# Python Version:3.5.1
import socket
import time
import struct
import json

host = "localhost"
port = 1234

ADDR = (host, port)

if __name__ == '__main__':
  client = socket.socket()
  client.connect(ADDR)

  # 正常數據包定義
  ver = 1
  body = json.dumps(dict(hello="world"))
  print(body)
  cmd = 101
  header = [ver, body.__len__(), cmd]
  headPack = struct.pack("!3I", *header)
  sendData1 = headPack+body.encode()

  # 分包數據定義
  ver = 2
  body = json.dumps(dict(hello="world2"))
  print(body)
  cmd = 102
  header = [ver, body.__len__(), cmd]
  headPack = struct.pack("!3I", *header)
  sendData2_1 = headPack+body[:2].encode()
  sendData2_2 = body[2:].encode()

  # 粘包數據定義
  ver = 3
  body1 = json.dumps(dict(hello="world3"))
  print(body1)
  cmd = 103
  header = [ver, body1.__len__(), cmd]
  headPack1 = struct.pack("!3I", *header)

  ver = 4
  body2 = json.dumps(dict(hello="world4"))
  print(body2)
  cmd = 104
  header = [ver, body2.__len__(), cmd]
  headPack2 = struct.pack("!3I", *header)

  sendData3 = headPack1+body1.encode()+headPack2+body2.encode()


  # 正常數據包
  client.send(sendData1)
  time.sleep(3)

  # 分包測試
  client.send(sendData2_1)
  time.sleep(0.2)
  client.send(sendData2_2)
  time.sleep(3)

  # 粘包測試
  client.send(sendData3)
  time.sleep(3)
  client.close()

服務器端打印結果

下面是測試出來的打印結果，可見接收方已經完美的處理粘包和分包問題了。

Connected by ('127.0.0.1', 23297)
第1個數據包
ver:1, bodySize:18, cmd:101
{"hello": "world"}

數據包（0 Byte）小于包頭長度，跳出小循環(huán)
數據包（14 Byte）不完整（總共31 Byte），跳出小循環(huán)
第2個數據包
ver:2, bodySize:19, cmd:102
{"hello": "world2"}

數據包（0 Byte）小于包頭長度，跳出小循環(huán)
第3個數據包
ver:3, bodySize:19, cmd:103
{"hello": "world3"}

第4個數據包
ver:4, bodySize:19, cmd:104
{"hello": "world4"}

在框架下處理粘包和分包

其實無論是使用阻塞還是異步socket開發(fā)框架，框架本身都會提供一個接收數據的方法提供給開發(fā)者，一般來說開發(fā)者都要覆寫這個方法。下面是在Twidted開發(fā)框架處理粘包和分包的示例，只上核心程序：

# Twiested
class MyProtocol(Protocol):
  _data_buffer = bytes()

  # 代碼省略

  def dataReceived(self, data):
    """Called whenever data is received."""
    self._data_buffer += data
    headerSize = 12

    while True:
      if len(self._data_buffer) < headerSize:
        return

      # 讀取消息頭部
      # struct中:!代表Network order，3I代表3個unsigned int數據
      headPack = struct.unpack('!3I', self._data_buffer[:headerSize])
      # 獲取消息正文長度
      bodySize = headPack[1]

      # 分包情況處理
      if len(self._data_buffer) < headerSize+bodySize :
        return

      # 讀取消息正文的內容
      body = self._data_buffer[headerSize:headerSize+bodySize]
      # 處理數據
      self.dataHandle(headPack, body)
      # 粘包情況的處理
      self._data_buffer = self._data_buffer[headerSize+bodySize:]

總結

以上就是本文關于python TCP Socket的粘包和分包的處理詳解的全部內容，希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關專題，如有不足之處，歡迎留言指出。感謝朋友們對本站的支持！

您可能感興趣的文章:

python基于C/S模式實現聊天室功能
這篇文章主要為大家詳細介紹了python基于C/S模式實現聊天室功能，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2019-01-01
python處理csv中的空值方法
今天小編就為大家分享一篇python處理csv中的空值方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
Python3中l(wèi)ambda表達式與函數式編程講解
今天小編就為大家分享一篇關于Python3中l(wèi)ambda表達式與函數式編程講解，小編覺得內容挺不錯的，現在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-01-01
python 實現在無序數組中找到中位數方法
這篇文章主要介紹了python 實現在無序數組中找到中位數方法，具有很好對參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
Python使用技巧之實現Excel轉為PDF
這篇文章主要為大家詳細介紹了使用第三方Python庫Spire.XLS?for?Python?實現Excel轉PDF的簡單方法,文中的示例代碼講解詳細,需要的可以參考下
2023-11-11
微信公眾號腳本-獲取熱搜自動新建草稿并發(fā)布文章
本來想寫一個自動化發(fā)布微信公眾號的小綠書的腳本,但是微信公眾號官網沒有小綠書的接口,那就寫一個獲取熱搜微信普通文章的腳本吧,這篇文章主要介紹了微信公眾號腳本-獲取熱搜自動新建草稿并發(fā)布文章
2025-04-04
教你如何使用Python Tkinter庫制作記事本
讓我們看看如何使用 Tkinter 在 Python 中創(chuàng)建一個簡單的記事本.這個記事本 GUI 將包含各種菜單,如文件和編輯,使用這些菜單可以完成保存文件、打開文件、編輯、剪切和粘貼等所有功能,需要的朋友可以參考下
2021-06-06
python操作日志的封裝方法(兩種方法)
這篇文章主要介紹了python操作日志的封裝方法，本文通過實例代碼給大家介紹的非常詳細，具有一定的參考借鑒價值 ,需要的朋友可以參考下
2019-05-05
Python Django form 組件動態(tài)從數據庫取choices數據實例
這篇文章主要介紹了Python Django form 組件動態(tài)從數據庫取choices數據實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-05-05
Python析構函數__del__定義原理解析
這篇文章主要介紹了Python析構函數__del__定義原理解析,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-11-11