永久免费的啪啪网站,1000部禁视频免费大全免,激情AV电影在线观看

1，介紹

我們可以把物理內存簡單地看成一個大的數組，其中每個字節都可以通過物理地址進行訪問。

前面的文章《一文搞懂DDR SD RAM 工作原理》介紹過物理內存的物理結構，及怎么通過控制器、PHY讀、寫SDRAM芯片獲取、寫入數據，讓我們明白物理內存在硬件原理方面的實現是什么樣的。

在《一文搞懂CPU的工作原理》介紹過CPU訪問物理內存的全過程，總結下來就是：

CPU寫物理內存的過程：CPU先給出要寫入數據的物理地址對應的虛擬地址，通過MMU轉化為物理地址，若cache中沒有命中，則將要寫入數據的物理地址放到系統總線上。DDR的控制器感受到總線上的地址信號以及寫控制信號，將物理地址從總線上讀出來，并等待數據的到達。CPU將數據發送到系統總線上，DDR控制器感受到總線上的數據信號，將數據從總線上讀取出來。DDR控制器通過物理地址找到相應的存儲模塊，然后將數據寫入到物理地址對應的存儲模塊。

CPU讀物理內存的過程：CPU給出要讀數據的物理地址對應的虛擬地址，通過MMU轉化為物理地址，若cache中沒有命中，則將物理地址放到系統總線上。DDR控制器感受到總線上的地址型號及讀控制信號，將物理地址從總線上讀取出來，DDR控制器根據物理地址找到存儲模塊中數據的位置，并從SDRAM芯片中取出物理地址對應的數據，DDR控制器將數據放到總線上，CPU從總線上獲取數據，并存放到寄存器上。

之前已經講述過CPU讀、寫物理內存的過程，本文主要講述linux內核是怎么管理物理內存，包括物理內存涉及的數據結構、內存模型、內存架構、物理內存的管理流程。

2，數據結構

與物理內存相關的數據結構有內存節點（pglist_data）、內存管理區（zone）、物理頁面（page）、mem_map數組、頁表項（PTE）、頁幀號（PFN）、物理地址（paddress）。

Linux內核通過struct page來管理物理內存中的一個頁。內核為每個物理頁定義了一個索引編號PFN（Page Frame Number，頁幀號），這個PFN與struct page是一一對應的。通過page_to_pfn/pfn_to_page兩個宏實現物理頁和struct page之間的相互轉換。

3，框架

3.1 內存架構

在當前的計算機、嵌入式系統中，以內存為研究對象可以分成兩種架構。一種是UMA（Uniform Memory Access，統一內存訪問）架構，另外一種是NUMA（Non-Uniform Memory Access，非統一內存訪問）架構。

1） UMA內存架構

內存可以被其他模塊統一尋址，有統一的結構。目前，大部分嵌入式系統及計算機系統都采用UMA架構。如上圖所示，是一個UMA架構的系統，有兩個cpu位于同一個cluster中，cpu分別有自己的L1D、L1I cache及L2 cache。兩個cpu共享L3 cache，通過系統總線可以訪問物理內存DDR，SRAM、SSD等模塊，并且兩個CPU對物理內存的訪問消耗是一樣的。這種訪問模式的處理器被成為SMP（Aymmetric Multiprocessing，對稱多處理器）

2） NUMA內存架構

系統中有多個內存節點和多個cpu cluster，CPU訪問本地內存節點的時間開銷最小，訪問遠端的內存節點的時間開銷要大。如上圖所示，是一個NUMA架構的系統，其中cpu0、cpu1在cluster0中，與相應的L1I/L1D cache、L2 cache、L3 cache及DDR組成node0節點。同樣的，CPU2、CPU3在cluster1中，與相應的L1I/L1D cache、L2 cache、L3 cache及DDR組成node1節點。兩個node節點，通過UPI（Ultra Path Interconnect，超路徑互聯）總線連接。CPU0可以通過這個UPI訪問遠端node1上的物理內存，但是要比本地node0的內存訪問慢得多。

3.2 內存模型

內核是以頁為單位使用struct page數據結構來管理物理內存的。內核通過物理內存模型來實現組織管理這些物理內存頁，不同的物理內存模型，應對的場景及頁幀號與物理頁之間的計算方式也不一樣。

1）平坦內存模型：FLATMEM

Linux早期使用的物理內存比較小，比如幾十MB，并且這些物理內存是一片連續的存儲空間，這樣物理地址也是連續的，按固定頁大小劃分出來的物理頁也是連續的。Linux內核會用一個mem_map全局數組來組織管理所有的物理頁，其中物理頁是通過struct page來管理，這樣每個數組的下標便是PFN。這種連續的物理內存便是平坦內存模型。

2）非連續內存模型：DISCONTIGMEM

對于PLATMEM適合管理一整塊連續的物理內存，但是對于多塊非連續的物理內存，若使用FLATMEM來管理，這時mem_map全局數組中會有不連續內存地址區的內存空洞，這會造成內存空間的浪費。為了管理這種不連續的物理內存，內核引入了DISCONTIGMEM非連續內存模型來管理，以便消除不連續的內存地址空洞對mem_map全局數組造成的空間浪費。

DISCONTIGMEM非連續內存模型的思路是：將物理內存從宏觀上劃分成一個個節點node，但是微觀上還是以物理頁為單位，每個node節點管理一塊連續的物理內存，這樣這些非連續的內存，會以連續的內存方式劃分到node節點中管理起來，這樣便可以避免內存空洞造成的空間浪費。

3）稀疏內存模型：SPARSEMEM

由于物理內存在使用的時候，會有很多空洞，這樣物理內存存在多處不連續。如果利用上面講的DISCONTIGMEM內存模型，會造成node眾多，這樣開銷就大了。為了能夠更靈活、更高效的、更小的管理連續物理內存。SPARSEMEM系數內存模型就是為了對粒度更小的連續內存塊進行精細的管理，用于管理連續內存塊的單元被稱為section。在內存中用struct mem_section結構體表示SPARSEMEM模型中的section。

由于section被用作管理小粒度的連續內存塊，這些小的連續物理內存在section中也是通過數組的方式被組織管理，其中mem_section結構體中的section_mem_map指針用于指向section中管理連續內存的page數組。SPARSEMEM內存模型中的mem_section會存在放在一個全局的數組中，并且每個mem_section都可以在系統運行的時候進行內存的offline/online，這樣便可以支持內存的熱拔插。

4，物理內存初始化

4.1 內存大小初始化

物理內存的大小會在DTS（Device Tree Source，設備樹）中描述，如下dts的描述：

memory { device_type = "memory"; reg = <0x000000000 0x80000000 0x00000000 0x40000000>; };

起始地址為0x80000000，大小為0x40000000

內存在啟動的過程中，會解析上面的DTS，相應的調用過程如下：

4.2 memblock內存分配器

在伙伴系統沒有初始化前，在內核中需要一套機制管理內存的申請與釋放。在啟動的過程中，會解析設備樹中的memory節點，把所有物理內存添加到memblock中。后面會通過一篇文章講解memblock分配器。這里先把結構體及函數接口列出來。

4.3 ZONE初始化

在對頁表初始化后，內核就會對內存進行管理。內核會將這些物理內存分配成不同的內存管理區（ZONE），分別針對這些內存管理區進行管理。

常見的內存管理區如下：

ZONE_DMA：用于inter X86 ISA設備的DMA操作，范圍是0~16MB，ARM沒有這個內存管理區。

ZONE_DMA32：用于最低4GB的內存訪問的設備，如只支持32位的DMA設備。

ZONE_NORMAL：4GB 以后的物理內存，用于線性映射物理內存。若系統內存小于4GB，則沒有這個內存管理區。

ZONE_HIGHMEM：用于管理高端內存，這些高端內存是不能線性映射到內核地址空間的。64位Linux是沒有這個內存管理區的。

其中ZONE是利用struct zone數據結構進行管理的，zone數據結構經常會被訪問，因此為了提升性能，這個數據結構要求以L1高速緩存對齊。數據結構zone中關鍵的成員如下：

Watermark：每個zone在系統啟動時會計算出3個水位，分別是WMARK_MIN（最低警戒水位）、WMARK_LOW（低水位）、WMARK_HIGH（高水位），這些在頁面分配器和kswapd頁面回收中會用到。

Lowemem_reserve：防止頁面分配器過渡使用低端zone的內存。

Zone_pgdat：指向內存節點。

Pageset：用于維護每個cpu上的一些列頁面，以減少自旋鎖的使用

Zone_start_pfn：zone的起始頁幀號。

Managed_pages：zone中被伙伴系統管理的頁面數量。

Spanned_pages：zone中包含的頁面數量。

Present_pages：zone里實際管理的頁面數量。對于一些架構來說，它和spanned_pages數量一致。

Free_area：伙伴系統核心的數據結構，管理空閑也快鏈表的數組。

Lock：并行訪問時用于保護zone的自旋鎖。

Lruvec：LRU鏈表集合。

4.4 伙伴系統

內核啟動完成后，物理內存的頁面就要添加到伙伴系統中來管理了。伙伴系統（buddy system）是操作系統中常用的動態內存管理方法。用戶提出申請時，分配一個大小合適的物理內存，當用戶釋放后，回收相應的物理內存。后面會專門寫一篇介紹伙伴系統的文章，這里只做簡單的介紹。

在伙伴系統中，內存塊的大小是2的order次冪個頁幀。Linux中order的最大值是11。伙伴系統大致的思想是，將所有空閑的物理內存頁面分組成11個內存塊的鏈表，每個內存塊的鏈表分別包含1、2、4、8、16、32、…、1024個連續的物理頁面。1024個物理頁面對應著4MB大小的連續物理內存。

由上一節我們了解到，物理內存在linux中分出了幾個ZONE來管理空閑物理頁塊。ZONE可以根據內核的配置來劃分。每個ZONE又是利用伙伴系統來管理。ZONE的數據結構有一個free_area數據結構，數據結構的大小是MAX_ORDER（11）。free_area數據結構中包含了MIGRATE_TYPES個鏈表。可以理解成ZONE根據order的大小由0~（MAX_ORDER-1）個free_area，每個free_area根據MIGRATE_TYPES類型，由幾個相應的鏈表組成。

審核編輯：劉清