女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

KDDI重大故障為何持續60小時之久?

無線深海 ? 來源:無線深海 ? 作者:無線深海 ? 2022-07-11 10:08 ? 次閱讀

幾天前發生的KDDI網絡故障,是KDDI史上最大、也是近年來全球罕見的網絡重大故障,值得整個通信行業研究和吸取教訓。

本著好奇,雇傭軍通過收集一些零碎信息,對本次事故進行了如下分析。由于技術水平有限,如有不當之處,請各位在留言區指出。但求拋磚引玉,引起行業進一步的思考和討論。

事故過程回顧

根據KDDI簡報,本次事故經過如下: 7月2日凌晨1:35開始

因更換路由器發生故障,無法將語音流量正確路由到其中一臺“VoLTE交換機”,直接導致部分VoLTE語音業務中斷15分鐘。 7月2日凌晨1:50

啟動回退操作,將連接重新切換回舊的路由器上。 7月2日凌晨2:17

由于大量終端向IMS網絡發起位置注冊信令以請求重新連接至網絡,發現“VoLTE交換機”擁塞。 7月2日凌晨3點至下午15:22

KDDI在無線側、核心網側同時實施流量控制策略,以緩解“VoLTE交換機”擁塞。 7月2日下午15:22開始

由于發現“用戶數據庫”也擁塞,斷開東日本的2臺PGW設備和西日本的2臺PGW,以減輕“用戶數據庫”負荷。 7月2日下午17:31開始

為處理“用戶數據庫”與“VoLTE交換機”之間存在的數據不一致問題,KDDI對東日本的2臺PGW設備和西日本的2臺PGW設備實施“會話重置”措施,解決了數據不一致問題。 接下來,對其余13臺PGW設備(東日本7臺,西日本6臺)也實施了斷開和會話重置操作。 7月3日下午17:30

通過實施以上策略,東日本和西日本的修復工作基本完成。 7月4日凌晨4點

盡管實施了以上一系列措施,但在之后的網絡測試和驗證中發現,“VoLTE交換機”和“用戶數據庫”的負荷并沒有得到充分緩解。

隨后,在故障持續2天多后,KDDI發現其18臺“VoLTE交換機”中有6臺“VoLTE交換機”向“用戶數據庫”不斷發送“不必要的多余信令”。

7月4日12:18至13:18

切斷這6臺“VoLTE交換機”后,其余“VoLTE交換機”和“用戶數據庫”的負載大幅降低到故障發生前的水平。 7月4日14點51分

解除無線側流量控制。

到此,KDDI此次重大網絡故障總算基本恢復。

不難看出,此次事故并非單一故障,而是由某一故障點引發的一連串問題導致。正因如此,故障持續了長達60多個小時。

那問題來了,估計所有通信人都很好奇,KDDI所指的“VoLTE交換機”和“用戶數據庫”具體是4G核心網的哪一個網元?到底是哪些環節出了問題?

信令跟蹤與分析

感謝日本同行在故障發生后對網絡信令進行了跟蹤與記錄,從信令截圖看,存在兩大故障現象。

故障現象一:

511809d6-00bd-11ed-ba43-dac502259ad0.png

VoLTE手機向IMS核心網發起SIP Register(SIP注冊)請求后,返回500 Cx Unable To Comply或500 Server Internal Error錯誤,導致IMS注冊失敗。

查詢SIP協議,500 Server Internal Error指因服務器遇到了意外情況阻止了請求完成,客戶端可能會在幾秒鐘后重試請求。

Cx Unable To Comply,未查詢到這一故障代碼是什么原因引起的,但由于Cx指IMS核心網網元I/S-CSCF與HSS之間的接口,采用Diameter信令,因此,可能表明I/S-CSCF與HSS或者兩者之間的鏈路出現了問題。

故障現象二:

516a78ec-00bd-11ed-ba43-dac502259ad0.png

手機附著到LTE網絡并建立默認EPS承載后,向網絡發起PDN Connectivity Request以請求后,返回PDN Connectivity Reject消息,導致無法建立QCI=5的SIP信令承載。

打開PDN Connectivity Reject消息,原因為Insufficient resources,表明由于資源不足而無法提供所請求的服務。

這兩大信令異常均會導致VoLTE用戶注冊失敗,這符合KDDI故障現象,即用戶無法接打VoLTE語音通話。

接下來,我們再來對比VoLTE用戶注冊流程,看看具體是哪一個環節出錯了?

518046fe-00bd-11ed-ba43-dac502259ad0.png

EPS和IMS網絡架構圖

VoLTE用戶注冊流程總體包括:EPS附著和QCI5承載建立、IMS注冊。

有必要先解釋一下QCI5承載。

通常,VoLTE使用雙APN架構,包括Internet APN和IMS APN。Internet APN為默認APN,手機開機后會首先與之建立一個PDN連接,其默認EPS承載的QCI值通常為9。

當手機與Internet APN建立PDN連接后,手機會額外進行與IMS APN的PDN連接,其默認EPS承載的QCI值為5,主要負責傳送SIP信令。

承載,就是就是指承載人、搬運工,負責將信令和數據從一點運輸到另一點。在4G規范中,定義了不同承載業務對應的QCI值。其中,QCI5優先級最高,用于IMS(SIP)信令的默認承載;QCI1-4其次,可用于VoLTE語音和視頻通話;QCI6-9優先級最低,只能“盡力而為”保障數據傳輸。

具體流程如下。

EPS附著和QCI9默認承載建立

51957a42-00bd-11ed-ba43-dac502259ad0.png

1、2、3、4、5:UE向MME發送附著請求(Attach Request)后,MME與HSS對UE進行鑒權,并在鑒權通過后,MME向HSS獲取UE的簽約數據。

6、7、8、9:MME根據用戶簽約數據中的默認APN和PDN簽約上下文,通過Create Session Request消息向SGW/PGW請求建立EPC默認承載(QCI一般為9),SGW/PGW向PCRF發送Credit-Control-Request(CCR) 為默認承載請求PCC策略,PCRF根據接收到的用戶簽約數據確定PCC策略,并通過Credit-Control-Answer(CCA)響應,隨后SGW/PGW向MME發送Create Session Response完成GTP-C會話創建過程。

10、11:MME向UE發送 Attach Accept,并請求激活默認EPS承載;UE通過Attach Complete消息通知MME默認EPS承載已激活。

此時,UE完成EPS附著并建立QCI9默認承載。

QCI5承載建立

12、13、14、15、16:UE向MME發送PDN Connectivity Request,MME向 SGW/PGW發送Create Session Request請求建立QCI5默認承載,SGW/PGW向PCRF發送CCR為默認承載請求PCC策略,PCRF通過CCA響應后,SGW/PGW向MME發送Create Session Response。

17、18:MME向UE發送Activate Default EPS Bearer Context Request激活默認EPS承載,UE響應Activate Default EPS Bearer Context Accept消息通知MME默認EPS承載已被激活。

此時,UE和IMS APN之間建立了QCI值為5的默認EPS承載,接下來,所有SIP信令流量將通過QCI5承載。

IMS注冊

51a98cf8-00bd-11ed-ba43-dac502259ad0.png

19、20、21:UE通過向P-CSCF發送SIP REGISTER發起IMS注冊,I-CSCF向HSS發送User-Authorization-Request(UAR) 執行用戶注冊狀態查詢,HSS授權用戶使用IMS服務后,在User-Authorization-Answer(UAA)響應中返回該用戶的S-CSCF地址。

22、23、24、25、26:I-CSCF將SIP REGISTER轉發給指定的S-CSCF,S-CSCF向HSS發送Multimedia-Auth-Request(MAR)請求鑒權信息,HSS通過Multimedia-Auth-Answer(MAA)響應后, S-CSCF通過401 UnAuthorized消息將鑒權信息發送至UE,以完成UE對網絡側鑒權。

27、28、29、30、31、32、33:UE向IMS發起第二次注冊請求和響應流程,以完成網絡側對UE鑒權,并下載用戶IMS簽約數據。詳細步驟與第一次注冊類似。

對比信令追蹤和VoLTE注冊流程,此次VoLTE語音故障原因可能發生在CSCF與HSS之間,以及S/PGW與PCRF之間。(如信令流程圖中的紅星標識)

對比KDDI故障簡報,其提到的“VoLTE交換機”可能是CSCF網元,而“用戶數據庫”可能是HSS網元,或者HSS與PCRF融合網元。

CSCF,Call Session Control Function,IMS網絡架構中關鍵網元實體功能,其按位置和功能又分為P/S/I三種類型,其中,P-CSCF(Proxy CSCF)是IMS網絡的初始接入點,所有起始和終止于SIP終端的會話均通過P-CSCF;S-CSCF(Serving CSCF)在IMS核心網中處于核心控制地位,其配合HSS網元對用戶進行鑒權,從HSS下載用戶簽約信息,并根據用戶簽約的IMS觸發規則進行路由觸發和業務控制,以及管理基本會話路由;I-CSCF(Interrogating CSCF),IMS歸屬網絡的入口點,在注冊過程中I-CSCF通過查詢HSS為用戶選擇一個S-CSCF。

HSS,Home Subscriber Server,歸屬用戶服務器,存儲并管理用戶簽約數據,包括用戶鑒權信息、位置信息及路由信息等。在VoLTE網絡架構中,EPC HSS和IMS HSS可以融合部署。

PCRF,策略和計費控制單元,用于用戶信息管理、PCC策略管理、PCC策略動態生成及事件觸發等差異化服務業務。

Diameter信令異常?

再來回顧KDDI故障簡報,有兩點值得關注。

1)KDDI在新聞發布會上表示,回退操作后,盡管有相當多的用戶向“VoLTE交換機”發起重新連接,但這些用戶數量并不是KDDI總用戶數。同時,KDDI在全國范圍內有18個“VoLTE交換機”,且相互冗余備份。KDDI也做過模擬測試,即使所有用戶發起重新連接,也不會引起VoLTE擁塞。因此,本次事故可能還潛伏著其他原因。

2)“VoLTE交換機”擁塞發生后,盡管實施了接入限制、流控控制、斷開部分PGW網元等措施,但“VoLTE交換機”和“用戶數據庫”的負荷并沒有得到充分緩解,直到故障持續2天多后,KDDI才進一步發現其18臺“VoLTE交換機”中有6臺“VoLTE交換機”向“用戶數據庫”不斷發送“不必要的多余信令”。斷開這6臺“VoLTE交換機”后,其余“VoLTE交換機”和“用戶數據庫”的負載大幅降低到故障發生前的水平。

所謂”VoLTE交換機“不斷向”用戶數據“發送”不必要的多余信令“,即CSCF網元不斷向HSS(或者HSS與PCRF融合網元)發送異常信令。

在4G網絡架構中,I/S-CSCF與HSS之間的為Cx接口,采用Diameter信令。

Diameter 信令主要應用于EPC系統、策略及計費控制PCC系統和IMS域,主要用于用戶鑒權、數據、策略、計費管理等。

EPC、PCC、IMS網絡中使用Diameter信令的網元和接口包括:I/S-CSCF 與 HSS 之間的接口、PCRF與PGW之間的Gx接口、HSS與MME之間的S6a接口等。

而從前文分析看,本次事故的故障點均發生在與Diameter信令相關的接口和網元。

51ba2bc6-00bd-11ed-ba43-dac502259ad0.png

因此,懷疑此次事故還潛伏著一個重要故障:Diameter信令網異常。

當然,以上只是基于一些碎片信息的不成熟分析,具體原因只能等待KDDI公布詳細報告。再次重申,由于技術水平有限,如有不當之處,請各位在留言區指出。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 交換機
    +關注

    關注

    21

    文章

    2723

    瀏覽量

    101369
  • 數據庫
    +關注

    關注

    7

    文章

    3901

    瀏覽量

    65777
  • 信令
    +關注

    關注

    0

    文章

    40

    瀏覽量

    14321

原文標題:信令分析:KDDI重大故障為何持續60小時之久?

文章出處:【微信號:wuxian_shenhai,微信公眾號:無線深海】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    Kikusui菊水PMX35-3A直流可調電源輸出電壓偏大故障維修過程

    ?近期深圳某研究所送修一臺菊水PMX35-3A直流可調電源,報修故障是輸出電壓偏大,隨后工程師對儀器進行檢測,確認故障與客戶描述一致。
    的頭像 發表于 05-28 15:40 ?92次閱讀
    Kikusui菊水PMX35-3A直流可調電源輸出電壓偏<b class='flag-5'>大故障</b>維修過程

    MAX14883E帶±60V故障保護的CAN收發器技術手冊

    MAX14883E故障保護、高速控制局域網(CAN)收發器優化用于工業網絡應用。該器件具有±60V故障保護、±25V共模輸入范圍,以及CANH和CANL總線上高達±10kV ESD保護(接觸放電)。器件工作在5V單電源(V ~C
    的頭像 發表于 05-27 10:01 ?83次閱讀
    MAX14883E帶±<b class='flag-5'>60</b>V<b class='flag-5'>故障</b>保護的CAN收發器技術手冊

    UCC3912 帶斷路器和可調電流監控的 3V 至 8V 熱插拔控制器數據手冊

    。這些因素包括故障電流水平、最大輸出源電流、最大故障時間和啟動延遲。在持續故障的情況下,內部固定的 3% 占空比限制了平均輸出功率。
    的頭像 發表于 05-14 18:17 ?238次閱讀
    UCC3912 帶斷路器和可調電流監控的 3V 至 8V 熱插拔控制器數據手冊

    電機軟啟動器常見5大故障

    。電機軟啟動器在使用過程中可能會遇到多種故障,以下是常見的五大故障及其可能的原因和解決方法: 一、電動機無法啟動 可能原因: 1. 六只可控硅中某一只觸發不可靠或不導通,導致一相電路通過半波直流,對電動機產生制動
    的頭像 發表于 04-23 17:26 ?401次閱讀

    直流充電測試負載常見故障排查

    的電弧燒蝕故障。數字孿生技術可構建三維熱場模型,提前48小時預測散熱系統性能衰減趨勢。 據統計,約60%的現場故障源于參數配置錯誤或部件接觸不良。建議建立預防性維護制度,關鍵功率器件每
    發表于 03-18 12:32

    泰克示波器模擬電路故障排查

    在現代電子設備的設計和維修過程中,模擬電路的故障排查一直是工程師們面臨的重大挑戰之一。電路中微小的故障可能導致設備功能失常、信號失真甚至完全失效,因此準確、高效地定位故障點是解決問題的
    的頭像 發表于 02-15 10:30 ?313次閱讀
    泰克示波器模擬電路<b class='flag-5'>故障</b>排查

    變頻器出現電流過大故障原因及解決辦法

    ? ? ? 變頻器作為現代工業控制中的重要設備,其運行狀態直接影響到生產線的穩定性和效率。然而,變頻器在使用過程中,常常會出現電流過大的故障,這不僅會損壞設備,還會影響生產的正常運行。本文將從變頻器
    的頭像 發表于 01-24 14:46 ?1351次閱讀
    變頻器出現電流過<b class='flag-5'>大故障</b>原因及解決辦法

    開關電源電路中為何需要串聯小電阻

    可以限制電容充電電流,還可以起到保險的作用,就是用電阻代替保險管了,節省了一個元件,有短路時,電阻不能通過大電流,就會燒斷,不會造成起火。還用用PCB上的銅箔做的很細,代替保險管的,當有大電流時,銅箔很細,不同通過大電流,銅箔就會燒斷,保護后級不會擴大故障,這種在小功率的電源中特別常見。
    的頭像 發表于 11-19 13:40 ?9212次閱讀
    開關電源電路中<b class='flag-5'>為何</b>需要串聯小電阻

    LMX2595掃頻模式,更換起始頻率后為何無法正常鎖定?

    1.起始頻率14G,掃頻帶寬60M,可以正常掃頻配置如下 2.起始頻率為14.06G,掃頻60M,無法正常掃拼,配置如下 不知道為何更改了起始頻率后無法正常工作了?有知道的嗎,搞了好幾天了,實在沒摸索出什么規律,有對L
    發表于 11-12 07:28

    變頻器8大故障原因及預防措施分析

    ,保證真空斷路器動作前先將變頻器斷開。 原文標題:變頻器8大故障原因及預防措施分析
    的頭像 發表于 10-23 15:52 ?1914次閱讀

    日本KDDI與三星合作,大規模部署Open RAN

    近日,日本知名移動通信運營商KDDI宣布與三星攜手,后者將作為核心供應商,助力KDDI在日本推進基于4G/5G O-RAN標準的Open RAN部署,提供vRAN解決方案。雙方計劃在未來幾年內不斷擴大Open RAN的覆蓋范圍。
    的頭像 發表于 10-16 15:43 ?926次閱讀

    工業智能網關如何配置報警規則

    在工業生產中,設備的故障時無法避免的,企業往往需要承受因設備故障停機停工帶來的事故風險與經濟損失。因此,如何實時監控設備狀態并實現自動告警,從而避開生產時間合理安排運維計劃;或者避免重大故障引發
    的頭像 發表于 09-20 17:09 ?574次閱讀
    工業智能網關如何配置報警規則

    SLAM激光導航 地牛式AGV機器人,“7*24小時”玩著工作!

    AGV地牛是一款小巧、靈活、載重大的貨物搬運工具,具備自主避障、實時監控等功能,采用磷酸鐵鋰電池,可24小時作業。其廣泛應用將提升物流效率,推動經濟發展,智能化物流搬運機器人將普及于各行業。
    的頭像 發表于 08-22 18:09 ?1172次閱讀
    SLAM激光導航  地牛式AGV機器人,“7*24<b class='flag-5'>小時</b>”玩著工作!

    常見的變頻器故障碼及故障處理方法詳解

    ? ? 變頻器在電氣自動化應用中非常普遍,雖然變頻器配合電動機使用更加的安全,高效和節能,但是變頻器持續的運行不可避免的會產生故障。 ? ? ?當變頻器發生故障的時候,對變頻器的故障
    的頭像 發表于 07-08 09:06 ?1.2w次閱讀

    武漢凱迪正大分享電纜短路故障點查找筆記

    電纜短路故障是常見且影響重大的問題會導致電力傳輸中斷嚴重的情況下甚至可能引發火災,快速準確地定位并修復電纜短路故障至關重要。
    的頭像 發表于 07-08 08:35 ?492次閱讀