方向梯度直方圖(Histogram of Oriented Gradient, HOG)
特征是一種在計算機視覺和圖像處理中用來進行物體檢測的特征描述子。HOG特征通過計算和統(tǒng)計圖像局部區(qū)域的梯度方向直方圖來構成特征。
在一副圖像中,局部目標的表象和形狀能夠被梯度或邊緣的方向密度分布很好地描述。其本質為:梯度的統(tǒng)計信息,而梯度主要存在于邊緣的地方
Hog特征結合SVM分類器已經(jīng)被廣泛應用于圖像識別中,尤其在行人檢測中獲得了極大的成功。
實現(xiàn)方法:
2、首先將圖像分成小的連通區(qū)域,這些連通區(qū)域被叫做細胞單元。然后采集細胞單元中各像素點的梯度的或邊緣的方向直方圖。最后把這些直方圖組合起來,就可以構成特征描述符。
3、性能提高:
將這些局部直方圖在圖像的更大的范圍內(nèi)(叫做區(qū)間)進行對比度歸一化,可以提高該算法的性能,所采用的方法是:先計算各直方圖在這個區(qū)間中的密度,然后根據(jù)這個密度對區(qū)間中的各個細胞單元做歸一化。通過這個歸一化后,能對光照變化和陰影獲得更好的效果。
因此HOG特征是特別適合于做圖像中的人體檢測的 。
1、色彩和伽馬歸一化。
A)、什么是圖像的歸一化
圖像歸一化是指對圖像進行了一系列標準的處理變換,使之變換為一固定標準形式的過程,該標準圖像稱作歸一化圖像。
這樣可以減少光照因素的影響
2、計算圖像梯度
計算圖像橫坐標和縱坐標方向的梯度,計算每個像素位置的梯度方向值;
從原始圖像當中抽象出來的數(shù)據(jù)圖像數(shù)字符號等等的這些標記稱為圖像特征。
唯一性,完整性,幾何變換不變性,名感性,抽象性
運用圖像分割的方法,進行處理成為
1) 面積
2) 位置為圖像執(zhí)行的位置,圖像的之心的計算法方法是
位置為質心所在的位置
為轉動慣量最小的那個軸,使得所有的點距離該軸的距離的歐氏距離最小。
使用鏈碼表示物體的邊界
鏈碼就是用來表示目標物體邊界上的點的數(shù)值序列,可以結婚時呢個存儲信息,而且可以準確的去頂物體的一些信息。
鏈碼就是用來表示目標物體邊界上的點的數(shù)值序列,可以結婚時呢個存儲信息,而且可以準確的去頂物體的一些信息。
什么是鏈碼表
原鏈碼:
歸一化鏈碼:
原鏈碼具有平移不變性,但是當起點不同時候,會有不同的鏈碼,所以要使用歸一化鏈碼,確定那個起始點,使得鏈碼的存儲數(shù)據(jù)最小。
差分碼:
由于歸一化鏈碼不具有旋轉不變性,于是定義了差分鏈碼。
傅里葉描述子(傅里葉變換的一個作用就是使得在信息量不發(fā)生變化的情況下將數(shù)據(jù)的表達形式發(fā)生變化,例如卷積,就是將數(shù)據(jù)從以為變化到二維空間當中)。
采用傅里葉描述的一個優(yōu)點是講二維問題轉化為一維問題,
使用傅里葉描述子的方法是:省略后面的n-m個點。
除此之外還有偏心度。
什么叫做矩:
矩在統(tǒng)計學中可以表征隨機變量的分布,而在力學中用于表征特征物質的分布。
二值圖是一種二維密度的分布函數(shù)。
二維矩不變理論p+q階矩的定義:
P+q階矩的定義
其中,x拔和y拔是圖像的灰度的中心點。
直方圖特征
數(shù)字圖像可以看作是一個二維隨機過程的一個樣本,用聯(lián)合該類分布來描述。
例如:圖像灰度直方圖可以描述圖像的灰度分布情況,(圖像的灰度直方圖就是使用概率分布來表述這些特征在圖像中的分布的情況。)
B表示了灰度級別,該灰度b在圖像中出現(xiàn)的頻率P(b)m表示了圖像中的總像素數(shù)目。N(b)表示像素為灰度值b的數(shù)目。
P(b)表示了區(qū)域的概率密度函數(shù)。
直方圖給出了灰度圖像額全局描述。在實際當中使用從直方圖中提取出來的一階統(tǒng)計測度。來區(qū)別類別間的特征差異
有均值,方差,能量,熵、偏度
偏度:
數(shù)據(jù)集關于中心點u分布的對稱情況。
如果大于零,則表示圖像像素偏于中心點的右邊。
在圖像處理領域當中,均值u反應圖像的平均亮度,方差反應圖像灰度級分布的分散性。但是這兩個值容易受到圖像采樣情況的影響。 所以應該對他圖像進行歸一化處理。。使得所有圖像中的所有圖像都具有相同的均值和方差。 能量是灰度分布對于原點的二階矩,如果圖像灰度值的等概率分布,則能量最小,熵是圖像中信息量多少的反應,對于等概率分布,熵最大。
2、特征直方圖
設 N(xi)為圖像II中某一特征值為xi的像素個數(shù).M為像素總數(shù)。
圖象的特征直方圖為
特征直方圖就是某一個特征的該類分布,例如,對于灰度圖像,直方圖就是灰度的概率分布。
3、什么是梯度方向直方圖
即將梯度的方向正在(-Pi/2,pi/2)中分成k個均勻的區(qū)域,
或者是梯度幅值的其他形式。但是他們都可以在一定的程度上反應像素上一定的邊緣信息。
每一個像素點附近的梯度特征是一個k維向量。
圖像的梯度方向直方圖就是圖像中所有像素點的k維團體都特征進行的直方圖統(tǒng)計。
3.1、梯度主要存在與邊緣的地方重點內(nèi)容**
使用hog特征對物體來進行特征描述。
1、 圖像的歸一化,傳統(tǒng)的圖像歸一化一般采用gamma標準化形式:
b) 根據(jù)梯度計算的公式講每個像素的梯度賦值和方向。
c) 直方圖統(tǒng)計的放個單元劃分。將圖像分成單元和塊。一個圖像由若干個放個單元組成,
d) 計算一個塊當中的hog特征向量。計算一個放個單元的k個梯度特征,對于由n*n個相鄰方格組成的塊,將每個方格單元的梯度特征組合在一起,就可以得到這個塊的特征向量。該特征向量是n*n*k維度。
e) 對hog特征向量進行歸一化,歸一化操作是對塊進行的,主要是為了使得特征向量空間對光照陰影和變化具有魯棒性。歸一化常用的函數(shù)如下:
6)特征向量的生成
在圖像上以一個放個單元為步長對塊進行華東,將每個塊的特征組hi在一起,就可以得到圖像的hog特征。
這樣得到的hog特征向量是
3.2 hog特征提取的快速算法
上面給出的是窮舉搜索算法,計算量偏大,基于積分直方圖的hog的特征提取方法。
使用H(x,y,k) = H(x-1,y,k)+ H(x,y-1,k)+ H(x-1,y-1,k)+Q(x,y)。這個迭代的式子來計算(x,y)點出的積分直方圖。
其中q(x,y)為在點(x,y)處的梯度向量計算公式。
計算處各個點處的對應的直方圖之后,圖8-13中區(qū)域v的直方圖Hv計算公式為:
這樣計算出來的梯度方向直方圖,可以節(jié)省大量的計算時間。
第二篇:csdn上的學習資料重點內(nèi)容
Hog方向梯度直方圖和svm支持向量機的結合是圖像識別中的廣泛使用的一種方法。
HOG+SVM進行行人檢測的方法是法國研究人員Dalal在2005的CVPR上提出的。
先將圖像劃分為許多小的聯(lián)通區(qū)域(細胞單元),然后采集細胞單元中各個像素點的梯度或者邊緣的方向直方圖。最后將這些直方圖組合起來就可以構成特征描述器。
此處的計算梯度方向的方法的原理是使用偏微分,實際上使用的是使用微分的定義式來進行的。這里使用的是一個以為的離散微分模板,將圖像同時在水平方向和垂直方向進行處理。
注意:微分的計算公式是dy/dx,在這里沒有除以dx,是因為dx就等于1.
把各個細胞單元組合成大的、空間上連通的區(qū)間(blocks)。這樣,一個block內(nèi)所有cell的特征向量串聯(lián)起來便得到該block的HOG特征。這些區(qū)間是互有重疊的,這就意味著:每一個單元格的特征會以不同的結果多次出現(xiàn)在最后的特征向量中。我們將歸一化之后的塊描述符(向量)就稱之為HOG描述符。
行人檢測的最佳參數(shù)設置是:3×3細胞/區(qū)間、6×6像素/細胞、9個直方圖通道。則一塊的特征數(shù)為:3*3*9;
Hog的核心的思想是物體的邊緣你的梯度直方圖能夠被邊緣方向的直方圖和光強強度梯度描述。所以就使用邊緣方向來描述物體的邊界,進而為區(qū)分物體做好基礎。而直方圖能夠表述整個圖像的各種特征信息在圖像上的分布情況。
此步就是為圖像的每個細胞單元構建梯度方向直方圖。細胞單元中的每一個像素點都為某個基于方向的直方圖通道投票。
投票是采取加權投票(weighted voting)的方式,即每一票都是帶權值的,這個權值是根據(jù)該像素點的梯度幅度計算出來。
可以采用幅值本身或者它的函數(shù)來表示這個權值,實際測試表明: 使用幅值來表示權值能獲得最佳的效果,當然,也可以選擇幅值的函數(shù)來表示,比如幅值的平方根、幅值的平方、幅值的截斷形式等。
細胞單元可以是矩形的,也可以是星形的。直方圖通道是平均分布在無向(0~180度)或有向(0~360度)范圍內(nèi)。
作者發(fā)現(xiàn),采用無向的梯度和9個直方圖通道,能在行人檢測試驗中取得最佳的效果。
把細胞單元組合成大的區(qū)間。
由于局部光照的變化以及前景-背景對比度的變化,使得梯度強度的變化范圍非常大。這就需要對梯度強度做歸一化。
梯度強度歸一化采取的辦法是:把各個細胞單元組合成大的、空間上連通的區(qū)間(blocks)。 這樣以來,HOG描述器就變成了由各區(qū)間所有細胞單元的直方圖成分所組成的一個向量(就是說,hog描述器就是一個向量,向量中每一個元素就是每一個細胞單元的直方圖而每一個細胞單元的直方圖就是在k個方向上梯度的投影所組成的向量)。
這些區(qū)間是互有重疊的,這就意味著:每一個細胞單元的輸出都多次作用于最終的描述器。區(qū)間有兩個主要的幾何形狀:矩形區(qū)間(R-HOG)和環(huán)形區(qū)間(C-HOG)。
R-HOG區(qū)間大體上是一些方形的格子,它可以有三個參數(shù)來表征:每個區(qū)間中細胞單元的數(shù)目、每個細胞單元中像素點的數(shù)目、每個細胞的直方圖通道數(shù)目。作者通過實驗表明,行人檢測的最佳參數(shù)設置是:3×3細胞 /區(qū)間、6×6像素/細胞、9個直方圖通道。
作者還發(fā)現(xiàn),在對直方圖做處理之前,給每個block加一個高斯空域窗口(Gaussian spatial window)是非常必要的,因為這樣可以降低邊緣的周圍像素點的權重。R- HOG跟SIFT描述器看起來很相似,但他們的不同之處是:R-HOG是在單一尺度下、密集的網(wǎng)格內(nèi)、沒有對方向排序的情況下被計算出來;而SIFT描述器是在多尺度下、稀疏的圖像關鍵點上、對方向排序的情況下被計算出來。補充一點,R-HOG是各區(qū)間被組合起來用于對空域信息進行編碼,而SIFT的各描述器是單獨使用的。
照這個直方圖來看的話,就是
對梯度進行歸一化處理: 區(qū)間歸一化(Block normalization Schemes) 引入v表示一個還沒有被歸一化的向量它包含了給定區(qū)間(block)的所有直方圖信息。| | vk | |表示v的k階范數(shù),這里的k去1、2。用e表示一個很小的常數(shù)。這時,歸一化因子可以表示如下:
評論