網(wǎng)絡(luò)協(xié)議棧是操作系統(tǒng)核心的一個重要組成部分,負(fù)責(zé)管理網(wǎng)絡(luò)通信中的數(shù)據(jù)包處理。在 Linux 操作系統(tǒng)中,網(wǎng)絡(luò)協(xié)議棧(Network Stack)負(fù)責(zé)實現(xiàn) TCP/IP 協(xié)議簇,處理應(yīng)用程序發(fā)起的網(wǎng)絡(luò)請求并與底層的網(wǎng)絡(luò)硬件進行交互。本文將深入探討 Linux 網(wǎng)絡(luò)協(xié)議棧的架構(gòu)與實現(xiàn),涵蓋數(shù)據(jù)包處理流程、關(guān)鍵模塊、協(xié)議棧層次以及性能優(yōu)化等方面。
網(wǎng)絡(luò)協(xié)議棧架構(gòu)
Linux 網(wǎng)絡(luò)協(xié)議棧采用分層架構(gòu),與 OSI(Open Systems Interconnection)模型類似,分為以下幾個主要層次:
應(yīng)用層:應(yīng)用程序通過系統(tǒng)調(diào)用訪問網(wǎng)絡(luò),如 send() 和 recv()。有些應(yīng)用層協(xié)議,例如NFS,就在內(nèi)核直接處理了。
傳輸層:處理端到端的通信,如 TCP 和 UDP 協(xié)議以及ICMP協(xié)議。
網(wǎng)絡(luò)層:負(fù)責(zé)路由和數(shù)據(jù)包轉(zhuǎn)發(fā),主要協(xié)議是 IP。
數(shù)據(jù)鏈路層:負(fù)責(zé)局域網(wǎng)內(nèi)的數(shù)據(jù)傳輸,如 Ethernet 協(xié)議。
物理層:最終數(shù)據(jù)通過網(wǎng)絡(luò)接口卡(NIC)發(fā)送到物理介質(zhì)上。
Linux 的網(wǎng)絡(luò)協(xié)議棧通過內(nèi)核的多層模塊化設(shè)計,實現(xiàn)了對不同網(wǎng)絡(luò)協(xié)議的支持。這種模塊化設(shè)計不僅提升了系統(tǒng)的靈活性和擴展性,也方便了內(nèi)核開發(fā)者對協(xié)議棧進行維護與擴展。
網(wǎng)絡(luò)協(xié)議棧的分層實現(xiàn)
Linux 內(nèi)核通過各個子模塊和協(xié)議棧層之間的相互協(xié)作,完成網(wǎng)絡(luò)通信任務(wù):
Socket 層:Socket 是用戶態(tài)與內(nèi)核通信的接口,應(yīng)用程序通過 Socket API 與網(wǎng)絡(luò)協(xié)議棧交互。Socket 實際上是一個抽象層,它將不同協(xié)議的實現(xiàn)封裝起來,向用戶提供統(tǒng)一的接口。
傳輸層(Transport Layer):處理端到端的數(shù)據(jù)傳輸協(xié)議,如 TCP 和 UDP。TCP 協(xié)議提供可靠的字節(jié)流傳輸,而 UDP 則提供無連接的報文傳輸。Linux 通過 net/ipv4目錄下的tcp_ipv4.c和udp.c等文件實現(xiàn)這些協(xié)議。
網(wǎng)絡(luò)層(Network Layer):負(fù)責(zé) IP 地址的路由和轉(zhuǎn)發(fā),核心實現(xiàn)位于 net/ipv4目錄下的ip_input.c 和 ip_output.c 文件中。IP 層還實現(xiàn)了路由表、ARP 協(xié)議等功能。
數(shù)據(jù)鏈路層(Link Layer):這一層處理硬件接口的通信,負(fù)責(zé)將數(shù)據(jù)包從網(wǎng)絡(luò)協(xié)議層傳遞到物理網(wǎng)絡(luò)設(shè)備(如以太網(wǎng)卡)。核心文件包括 net/core/dev.c(用于網(wǎng)絡(luò)設(shè)備管理和網(wǎng)絡(luò)設(shè)備的抽象和操作)。以及具體的網(wǎng)卡驅(qū)動的文件,例如drivers/net/ethernet/intel/e1000/e1000_main.c。
圖1 Linux網(wǎng)絡(luò)協(xié)議棧的分層實現(xiàn)
圖1中,Berkeley Socket Interface就是Socket層即套接字層。Protocal Layer即網(wǎng)絡(luò)協(xié)議層,包括了傳輸層和網(wǎng)絡(luò)層。圖1自Network Device Driver Interface/Queuing Discipline以下屬于數(shù)據(jù)鏈路層。這里Queuing Discipline的意思是Linux為了實現(xiàn)網(wǎng)絡(luò)帶寬管理和控制,對網(wǎng)絡(luò)數(shù)據(jù)包按照策略進行排隊處理。
Linux 網(wǎng)絡(luò)協(xié)議棧的數(shù)據(jù)包處理流程
網(wǎng)絡(luò)數(shù)據(jù)包是網(wǎng)絡(luò)通訊的載體。數(shù)據(jù)包處理分為入站和出站兩個方向。
入站數(shù)據(jù)包處理
當(dāng)一個數(shù)據(jù)包從外部網(wǎng)絡(luò)接收到達(dá)時,Linux 的網(wǎng)絡(luò)協(xié)議棧會按以下流程處理:
網(wǎng)絡(luò)接口接收:物理層通過 NIC 硬件設(shè)備接收到數(shù)據(jù)包,并通過驅(qū)動程序?qū)?shù)據(jù)包傳遞給 Linux 內(nèi)核。Linux 使用中斷或輪詢機制處理網(wǎng)絡(luò)設(shè)備的輸入。
數(shù)據(jù)鏈路層處理:數(shù)據(jù)包進入數(shù)據(jù)鏈路層(例如以太網(wǎng)層),協(xié)議棧會解析以太網(wǎng)幀的頭部,判斷數(shù)據(jù)包的類型(如 IPv4、IPv6 等)。數(shù)據(jù)鏈路層還會對數(shù)據(jù)包進行錯誤檢測(如 CRC 校驗)等操作。
網(wǎng)絡(luò)層處理:數(shù)據(jù)包進入 IP 層,內(nèi)核解析 IP 頭部,判斷數(shù)據(jù)包是否屬于本機或是否需要轉(zhuǎn)發(fā)。如果數(shù)據(jù)包屬于本機,IP 層會檢查協(xié)議類型(如 TCP、UDP 等),然后將數(shù)據(jù)包傳遞到對應(yīng)的傳輸層協(xié)議處理模塊。
傳輸層處理:如果數(shù)據(jù)包使用 TCP 協(xié)議,內(nèi)核會檢查 TCP 頭部信息,確認(rèn)數(shù)據(jù)包是否屬于已建立的連接,并進行流控、重傳等操作。如果是 UDP 數(shù)據(jù)包,則直接傳遞給上層的應(yīng)用程序。
應(yīng)用層交付:最終,經(jīng)過傳輸層處理的數(shù)據(jù)被傳遞到應(yīng)用層。應(yīng)用程序通過 recv() 等系統(tǒng)調(diào)用接收數(shù)據(jù)。
圖2 內(nèi)核調(diào)試器下觀察入站數(shù)據(jù)包處理
圖2是利用內(nèi)核調(diào)試器觀察的入站數(shù)據(jù)包處理流程,圖2中,沒有數(shù)據(jù)鏈路層的信息,這是因為Linux采用了NAPI機制對網(wǎng)絡(luò)數(shù)據(jù)包處理進行了優(yōu)化。在 Linux 網(wǎng)絡(luò)協(xié)議棧中,NAPI引入了一種混合中斷和輪詢的方式來處理高負(fù)載下的網(wǎng)絡(luò)數(shù)據(jù)包。NAPI 數(shù)據(jù)包隊列是該機制的核心部分之一,它用于存儲接收到的網(wǎng)絡(luò)數(shù)據(jù)包并等待后續(xù)處理。
出站數(shù)據(jù)包處理
當(dāng)應(yīng)用程序需要發(fā)送數(shù)據(jù)時,Linux 網(wǎng)絡(luò)協(xié)議棧會按以下流程處理:
應(yīng)用程序請求:應(yīng)用程序通過 Socket API 發(fā)送數(shù)據(jù),操作系統(tǒng)通過系統(tǒng)調(diào)用(如 send())進入內(nèi)核。
傳輸層封裝:傳輸層協(xié)議(如 TCP/UDP)對數(shù)據(jù)進行封裝,添加相應(yīng)的協(xié)議頭部,如 TCP 的源端口、目的端口、序列號等信息。對于 TCP,可能還會進行數(shù)據(jù)的分段與流控。
網(wǎng)絡(luò)層路由:封裝好的數(shù)據(jù)傳遞給 IP 層,IP 層會為數(shù)據(jù)包選擇最佳的路由,添加 IP 頭部(如源 IP 地址、目的 IP 地址等),并將數(shù)據(jù)包發(fā)送到合適的網(wǎng)絡(luò)接口。
數(shù)據(jù)鏈路層封裝:數(shù)據(jù)鏈路層將 IP 數(shù)據(jù)包封裝成適合硬件傳輸?shù)膸ㄈ缫蕴W(wǎng)幀),并根據(jù) ARP 協(xié)議找到目標(biāo) MAC 地址。
硬件發(fā)送:最終,封裝好的數(shù)據(jù)包通過網(wǎng)絡(luò)接口卡發(fā)出,數(shù)據(jù)傳遞到物理網(wǎng)絡(luò)。
圖3 內(nèi)核調(diào)試器下觀察出站數(shù)據(jù)包處理
圖3是利用內(nèi)核調(diào)試器觀察的出站數(shù)據(jù)包處理流程。tcp開頭的函數(shù)屬于傳輸層協(xié)議處理流程,包含ip的函數(shù)屬于網(wǎng)絡(luò)層協(xié)議處理流程,包含neigh的函數(shù)也屬于網(wǎng)絡(luò)層處理流程的ARP處理子流程(為了和ipv6統(tǒng)一,Linux使用了network neighbor的概念處理ARP協(xié)議)。包含e1000的函數(shù)屬于數(shù)據(jù)鏈路層協(xié)議處理流程。
核心數(shù)據(jù)結(jié)構(gòu)
sock 結(jié)構(gòu)體
sock 結(jié)構(gòu)體是 Linux 網(wǎng)絡(luò)協(xié)議棧中的核心數(shù)據(jù)結(jié)構(gòu)之一,它代表了內(nèi)核中每個 Socket 對象,并包含有關(guān)網(wǎng)絡(luò)連接的狀態(tài)信息。sock 結(jié)構(gòu)體不僅用于管理應(yīng)用層的 Socket,還用于管理協(xié)議層的狀態(tài)。
sk_buff 結(jié)構(gòu)體
sk_buff(Socket Buffer)是 Linux 中用于存儲和處理網(wǎng)絡(luò)數(shù)據(jù)包的關(guān)鍵結(jié)構(gòu)體。每個 sk_buff 都包含一個完整的網(wǎng)絡(luò)數(shù)據(jù)包,從鏈路層到應(yīng)用層的數(shù)據(jù)都可以在其中進行存取。
總結(jié)
Linux 網(wǎng)絡(luò)協(xié)議棧通過分層的架構(gòu)實現(xiàn)對網(wǎng)絡(luò)通信的高效管理。其各層次分別負(fù)責(zé)處理不同的網(wǎng)絡(luò)協(xié)議與功能,從應(yīng)用層的 Socket 接口到物理層的實際數(shù)據(jù)傳輸。關(guān)鍵的傳輸層協(xié)議如 TCP 和 UDP 在內(nèi)核中實現(xiàn),確保數(shù)據(jù)的可靠傳輸與高效分發(fā)。Linux在事實上已經(jīng)成為TCP/IP網(wǎng)絡(luò)協(xié)議最完美的參考實現(xiàn)!
審核編輯 黃宇
-
Linux
+關(guān)注
關(guān)注
87文章
11460瀏覽量
212794 -
網(wǎng)絡(luò)協(xié)議
+關(guān)注
關(guān)注
3文章
273瀏覽量
21993 -
協(xié)議棧
+關(guān)注
關(guān)注
2文章
145瀏覽量
34012
發(fā)布評論請先 登錄
NVMe協(xié)議研究掃盲
51+單片機TCP-IP+協(xié)議棧ZLIP源碼
三種藍(lán)牙架構(gòu)實現(xiàn)方案(藍(lán)牙協(xié)議棧方案)

hart協(xié)議的協(xié)議棧結(jié)構(gòu)分析
明達(dá)技術(shù)為您剖析軟&硬協(xié)議棧

RT-Thread USB協(xié)議棧-CherryUSB快速上手指南

DoIP協(xié)議棧簡介及主要功能

CC256x TI藍(lán)牙協(xié)議棧HIDDemo應(yīng)用

CC256x TI藍(lán)牙協(xié)議棧基礎(chǔ)HFGAGDemo應(yīng)用

串口服務(wù)器和TCP/IP協(xié)議棧是什么關(guān)系
是否能將libwebsokets移植到ESP8266上利用libwebsokets進行網(wǎng)絡(luò)應(yīng)用開發(fā)?
TCP/IP協(xié)議棧的設(shè)計與實現(xiàn)_中文
LwIP協(xié)議棧源碼詳解—TCP/IP協(xié)議的實現(xiàn)
基于MM32F5270的Ethernet實現(xiàn)LwIP協(xié)議棧移植

評論