以下文章來源于騰訊云 ,作者YHQ

事后想來,芯片驗證工程師Lynda進騰訊有點“草率”了。
“我們的仿真工具呢?”
“沒有,還在談。”
“驗證環(huán)境怎么說?”
“還沒有。”
“那……驗證流程呢?”
“也沒有。“
那是2019年1月。加入騰訊,Lynda正準備擼起袖子,大干一場,卻劈面遭遇“一問三沒有”。
“我們是從零開始做芯片。”
面試時,主導(dǎo)芯片設(shè)計工作的Henry給她打過心理預(yù)防針。
Lynda正好想?yún)⑴c芯片研發(fā)的全過程,倒不怕從頭開始。但她實在沒料到,連仿真工具、驗證環(huán)境、驗證流程這些必備品都能 “三無”。
眾所周知,芯片研發(fā)高門檻、高投入、高風險,而驗證工程師就是守門員。軟件開發(fā)尚可后期不斷改bug,芯片如果設(shè)計問題沒被前期驗證發(fā)現(xiàn),一旦流片,只能淪為一塊“磚頭”。
因此,很多芯片公司對設(shè)計工程師與驗證工程師的人員配比是1:3。而在蓬萊實驗室,Lynda只有一個并肩作戰(zhàn)的驗證同事,和一行代碼都沒有的驗證條件。
這時候,Lynda才開始明白Henry口中的“從零開始”意味著什么,以及她面臨著怎樣一場艱難的戰(zhàn)役。
1
一個差點解體的團隊
在騰訊云副總裁、云架構(gòu)平臺部總經(jīng)理謝明看來,芯片這場戰(zhàn)役,騰訊“蓄謀已久、勢在必行”。
這個團隊肩負著QQ等國民級應(yīng)用的后臺架構(gòu),站在騰訊海量業(yè)務(wù)數(shù)據(jù)沖刷的前線,深刻地明白底層技術(shù)創(chuàng)新對上層應(yīng)用的放大價值。
2013年,QQ相冊已經(jīng)發(fā)展成騰訊最大的一個存儲類業(yè)務(wù)。
讓用戶訪問相冊的速度更快、體驗更順滑,成了一個很急迫的需求。轉(zhuǎn)化成相應(yīng)的技術(shù)問題,就是圖片能否更快地轉(zhuǎn)碼?能否在不損畫質(zhì)的情況下壓縮?能否以更低的成本存儲?
他們反復(fù)地追問。
伴隨著軟件架構(gòu)上永無止盡的自我超越,團隊敏銳地察覺到,只有在硬件上也作出創(chuàng)新,才能實現(xiàn)更深層次的突破。
一個做軟件出身的團隊,怎么去做硬件?
一圈研究之后,他們決定先拿FPGA(可編程陣列邏輯)試水。FPGA相比起芯片容錯率高,但在吞吐率、延遲、功耗和靈活性等維度上都很平衡。尤其是在處理海量數(shù)據(jù)時,F(xiàn)PGA相比GPU具有超低延時的顯著優(yōu)勢。
事實驗證了這種判斷。2015年,團隊集中力量研發(fā)的圖片編碼FPGA,取得了比CPU編碼和軟件編碼更高的壓縮率和更低的延時,也幫助QQ相冊很大程度上降低了存儲成本。他們看到了在FPGA方向探索和深入的可能性。
2016年前后,由AlphaGo引爆的AI熱潮更把FPGA拉入了主流視野。團隊通過FPGA對深度學習模型的CNN算法進行加速后,處理性能達到通用CPU的4倍,而單位成本僅為1/3。
FPGA效果雖好,但技術(shù)門檻比較高,“如果把FPGA云化,是不是一個能夠擴大應(yīng)用的解決路徑?”
帶著這樣的期待,2017年1月20日,騰訊云推出了國內(nèi)首款FPGA云服務(wù)器,希望以云計算的方式,將FPGA能力推廣到更多企業(yè)。
從效果上來說,在FPGA云服務(wù)器上進行FPGA硬件編程的企業(yè),確實能將性能提升至通用CPU服務(wù)器的30倍以上,而只需支付相當于通用CPU約40%的費用。以一家著名的基因檢測公司為例,傳統(tǒng)用CPU需要檢測一周的基因序列,F(xiàn)PGA可以壓縮到數(shù)小時完成。
然而,殘酷的現(xiàn)實給團隊從頭到腳澆了盆冷水,云化后的FPGA,沒能如預(yù)期般迅速席卷整個行業(yè)。
一方面,許多企業(yè)還是無法獨立勝任FPGA開發(fā),需要更加上層的服務(wù);另一方面,GPU成本的迅速下降,也給FPGA造成了巨大的沖擊。
云端商業(yè)化的受挫,把團隊的熱情從巔峰一下子打到了谷底,同時也把一個問題赤裸裸地拋到整個團隊的眼前:FPGA對業(yè)務(wù)的價值究竟有多大?FPGA還能繼續(xù)做嗎?
受此打擊,團隊在2018年也近乎分崩離析,人員開始集中式地離開。
2
柳暗花明,“蓬萊”問世
時間進入2019年。那是人工智能規(guī)模化應(yīng)用的元年,內(nèi)外部業(yè)務(wù)都提出了對AI芯片的強烈訴求。
在FPGA云服務(wù)器受挫后,騰訊需要重新思考硬件之路要怎么走下去。
AI芯片,要不要做?
這個問題被提出來的時候,管理層有過反對的聲音,擔心技術(shù)人員只是頭腦發(fā)熱,只是為了追逐熱點,只是看似自信的盲目自負,但也沒有明令禁止小團隊的探索。
以小規(guī)模、低成本、特定應(yīng)用場景的方式先行試水,成了大家的共識。
云架構(gòu)平臺部將第一款芯片敲定AI推理方向,取名“蓬萊”,希望這款芯片能像中國古代神話里的海外仙山一樣,穩(wěn)固地立于洶涌波濤之上。
這支硬件突圍小分隊,也被正式命名為“蓬萊實驗室”。

經(jīng)歷過FPGA,蓬萊實驗室對硬件編程語言已經(jīng)相當熟練,也在標準接口、總線等方面積累了一些平臺化的設(shè)計。然而,兩者的研發(fā)要求,不可同日而語。
如果說做FPGA是搭現(xiàn)成的積木,那么做芯片就是直接從原木著手來制造積木。FPGA出了問題可以重新編程,而芯片只有一次流片機會,一旦出錯,付諸東流。
此外, FPGA的資源是現(xiàn)成固定的,芯片的資源卻是由自己定義的。
一個字,就是要“摳”:用最小的資源做最大的事。
芯片架構(gòu)工程師Rick用“裝修”改“重建”來形容整個蓬萊項目。
一開始,團隊以為能把之前FPGA的技術(shù)較為簡單地轉(zhuǎn)成芯片。做著做著發(fā)現(xiàn),以為終歸只是以為——FPGA架構(gòu)在芯片中能直接復(fù)用的并不多,團隊只能把原來的架構(gòu)整個拆掉,重寫的代碼量高達85%。
像DDR存儲器這樣的重中之重,芯片廠商通常會有專門的驗證人員負責,而剛起步的蓬萊實驗室沒這個條件,只能靠搶時間把功課補回來。
2020年1月,蓬萊芯片流片完成,被合作方快遞到深圳。新冠疫情剛剛在全國范圍內(nèi)暴發(fā),公司已經(jīng)開啟集體遠程辦公。

● 流片完成的蓬萊芯片被快遞回深圳
Henry戴著手套取到快遞,用酒精仔細消毒后,帶到空空蕩蕩的辦公樓,大開著窗戶和風扇,和幾個同事一起開始點亮操作。
所謂點亮,就是給芯片上電,首先看有沒有短路冒煙,接著就是測試一些基本功能。
是芯片還是“磚頭”,成敗在此一舉。

● 調(diào)試蓬萊芯片的時鐘
結(jié)果,芯片的時鐘頻率一直沒出來。要知道,時鐘頻率是芯片的“節(jié)拍器”,沒有時鐘頻率,芯片的不同模塊等于沒對好表,就無法協(xié)同工作。
是不是這塊芯片的問題?實驗人員換了一塊芯片,依然沒有信號輸出。
再換一塊,還是沒有。
現(xiàn)場鴉雀無聲。實驗人員已經(jīng)不敢動手了。
有人忍不住開玩笑,是不是該回家改簡歷了?但大家心里更多的是疑惑:
雖然人少、資源少、白手起家,但蓬萊實驗室從設(shè)計人員到驗證人員,都有信心說,每一步都做好了。到底是哪里不對呢?
在無比凝重的氣氛中,放板、上電、讀取信號……
第四塊芯片,亮了。剩下的所有芯片,也都沒問題。
真相就是這么簡單。28納米工藝的芯片,不良率只有3%,偏偏隨機測試的前三片就全趕上了,讓他們把“生一胎”的緊張情緒體驗到十足。
經(jīng)歷這名副其實的一波三折,騰訊第一款芯片,宣告問世。
3
更上一層,“紫霄”凌云
蓬萊芯片的實戰(zhàn)表現(xiàn)也不負眾望,助力騰訊推出中國第一臺獲準進入醫(yī)院臨床應(yīng)用的智能顯微鏡,實現(xiàn)自動識別醫(yī)學圖像、統(tǒng)計細胞數(shù)目并直接顯示在視野上,性能表現(xiàn)完全符合設(shè)計要求。

● 蓬萊芯片在智能顯微鏡上調(diào)試
高效地造出直面應(yīng)用、性能卓越的芯片,這條路,騰訊走得通。
終端芯片蓬萊的問世,只是完成了從0到1的任務(wù)。團隊已經(jīng)迫不及待的要從1到N,向著大規(guī)模云端芯片進軍。
蓬萊實驗室負責人Alex將大芯片申請立項戲稱為“A輪融資”。
初試鋒芒之后,團隊需要向公司說明,為什么需要用更大的投入去做大規(guī)模芯片?在短期和長期能否保持領(lǐng)先性?如何與內(nèi)外部業(yè)務(wù)結(jié)合創(chuàng)造價值?
騰訊這次面臨的決策,要容易做得多。
蓬萊的成功給了足夠的信心和底氣。蓬萊實驗室邊走路邊成長,完成了一次次蛻變,建立起完整、嚴謹、規(guī)范的芯片研發(fā)體系和流程。
這已經(jīng)是一支“正規(guī)軍”。
更重要的是,團隊證明了騰訊做芯片的優(yōu)勢和站位。
謝明解釋說,從行業(yè)來看,做芯片除了要考慮技術(shù)和工藝,最大的難點在于對芯片的“定義”。傳統(tǒng)芯片廠商的優(yōu)勢在于前者,但芯片做出來之后再去匹配需求,在很多場景下真實性能是損失的。Google、騰訊這類科技企業(yè)的優(yōu)勢在于自身就是需求方,對需求的理解和洞察最深刻、最透徹。
方向沒有問題,技術(shù)和工藝也沒問題,騰訊高級執(zhí)行副總裁、TEG(技術(shù)工程事業(yè)部)總裁盧山給予了全面支持,并通過總辦爭取到了更多的headcount和資金。
有了公司戰(zhàn)略的支持,團隊志氣昂揚奔赴更大的戰(zhàn)場。蓬萊實驗室副總監(jiān)Austin決定兵分兩路,在AI推理和視頻編解碼上并行推進。
AI小分隊繼續(xù)做蓬萊的2.0版“紫霄”。這是《封神演義》里鴻鈞老祖所居宮殿的名字。在穩(wěn)固的仙山上牢筑“紫霄”,代表了新的野心:
這次,他們將目標直接定為業(yè)界第一。

紫霄所有的架構(gòu)都圍繞著有效算力去做。團隊優(yōu)化片上緩存設(shè)計,并摒棄競品常用的GDDR6內(nèi)存,采用先進的2.5D封裝技術(shù),把HBM2e內(nèi)存與AI芯片合封在一起,從而把內(nèi)存帶寬提升了近40%。
技術(shù)迭代一日千里。紫霄立項后,業(yè)內(nèi)最高性能表現(xiàn)又被競品刷新。雖然紫霄的設(shè)計性能相比這個最高表現(xiàn)還足夠“安全”,但團隊還打算繼續(xù)加碼。
經(jīng)過研究,他們在芯片內(nèi)部增加了計算機視覺CV加速器以及視頻編解碼加速器,可創(chuàng)新性地大幅減小AI芯片和x86 CPU之間的交互和等待。
即便因此而增加了兩個復(fù)雜的自研模塊,團隊仍然在計劃的6個月時間里完成了從架構(gòu)確定到驗證以及流片的全部流程。
2021年9月10日,紫霄順利點亮。

在圖片和視頻處理、自然語言處理、搜索推薦等應(yīng)用場景下,這款芯片打破了制約算力發(fā)揮的瓶頸點,最終在實際業(yè)務(wù)場景性能表現(xiàn)達到了業(yè)界標品的2倍。
4
獨立自研,“滄海”一笑
2022年3月5日,Derick和他帶領(lǐng)的視頻編解碼小分隊收到流片回來的芯片“滄海”,又正逢深圳因疫情而全面遠程辦公。
他們申請?zhí)嘏M入空空蕩蕩的辦公樓。這情景,和兩年前點亮蓬萊時何其相似。

不曾想到,點亮蓬萊時的一波三折,同樣重現(xiàn)。克服了一些調(diào)試中的意外,在一片歡呼中,騰訊的第三款芯片、同時也是完全自主研發(fā)的第一款芯片滄海成功點亮。
從蓬萊到紫霄再到滄海,從28納米工藝到12納米工藝,從8個人發(fā)展到100多人,從仿真工具一無所有到“天箭驗證平臺”正式落成,從努力跟上合作伙伴的節(jié)奏到獨立做完全SOC。
蓬萊實驗室,完成了一場“芯”路進化。
此外,在應(yīng)用方向上不同于蓬萊和紫霄主打AI,滄海是一款視頻轉(zhuǎn)碼芯片。
如果說QQ相冊圖片的轉(zhuǎn)碼問題是蓬萊實驗室做硬件的最早契機,那滄海問世,正是完成了一次對初心的呼應(yīng)。
多媒體業(yè)務(wù)從圖片時代進化到音視頻直播時代,4K/8K超高清的數(shù)字內(nèi)容如潮水一般持續(xù)沖擊著云計算基礎(chǔ)設(shè)施。每增加一個比特的數(shù)據(jù),都會帶來相應(yīng)的轉(zhuǎn)碼算力和CDN帶寬成本。這是一道直觀而嚴峻的數(shù)學題。
滄海小分隊的目標非常清晰,那就是要做一款業(yè)界最強的視頻轉(zhuǎn)碼芯片,把壓縮率發(fā)揮到極致。
好在,騰訊豐富的多媒體應(yīng)用場景,以及騰訊云覆蓋的眾多直播互動頭部客戶,為滄海的研發(fā)提供了得天獨厚的分析和驗證條件。

團隊先是推出了滄海的核心自研模塊——硬件視頻編碼器“瑤池”,并決定在滄海完成研發(fā)之前給瑤池一次大考。
這個大考就是2020年的MSU世界編解碼大賽,由莫斯科國立大學(MSU)主辦,十多年來一直是全球視頻壓縮領(lǐng)域最具影響力的頂級賽事之一,吸引了包括英特爾、英偉達、谷歌、華為、阿里和騰訊在內(nèi)的國內(nèi)外知名科技企業(yè)參與。
結(jié)果是,瑤池實現(xiàn)1080P@60Hz的視頻實時編碼,力壓群雄獲得了SSIM (結(jié)構(gòu)相似性)、PSNR(峰值信噪比)和VMAF(視頻多方法評估融合)等各項客觀指標評測第一名,以及人眼主觀評價第一的好成績,相比起第二名領(lǐng)先了一個身位。
經(jīng)此硬仗,滄海在技術(shù)上得到了充分檢閱。
化滄海為一粟。滄海最終實現(xiàn)以更小的數(shù)據(jù)量、更小的帶寬提供相同質(zhì)量的視頻,壓縮率相比行業(yè)最佳表現(xiàn)還提高了30%以上。
5
“100G”時代,雙木參天
在多媒體、AI處理積極求變的同時,底層的云服務(wù)器也面臨著相似的問題:
當軟件優(yōu)化帶來的性能提升無法讓產(chǎn)品擁有區(qū)別于競品的明顯競爭力時,如何讓性能突破現(xiàn)有天花板?
騰訊的另一個部門,將目光投向了軟硬協(xié)同與硬件加速。
2019年,騰訊迎來云計算業(yè)務(wù)上的里程碑——云服務(wù)器規(guī)模突破了100萬。
騰訊云副總裁、騰訊網(wǎng)絡(luò)平臺部總經(jīng)理鄒賢能敏銳地觀察到,隨著服務(wù)器接入帶寬不斷提升,服務(wù)器用于網(wǎng)絡(luò)處理的CPU資源也越來越多。
能否以更低成本的方式來實現(xiàn)服務(wù)器網(wǎng)絡(luò)處理,同時還提供更高的網(wǎng)絡(luò)性能?
面對這樣“既要、又要”的挑戰(zhàn),鄒賢能決定給服務(wù)器做個減法:“把網(wǎng)絡(luò)數(shù)據(jù)處理的負擔從CPU卸載出來。”
“智能網(wǎng)卡”的想法就這樣誕生了。

● 騰訊智能網(wǎng)卡“銀杉”
所謂智能網(wǎng)卡,一方面像普通網(wǎng)卡一樣肩負起服務(wù)器的對外網(wǎng)絡(luò)訪問,實現(xiàn)不同服務(wù)器和數(shù)據(jù)中心之間的網(wǎng)絡(luò)互聯(lián)。另一方面,它額外帶有CPU/FPGA/內(nèi)存等智能單元,能分擔一部分服務(wù)器的虛擬化計算任務(wù),實現(xiàn)服務(wù)器整體網(wǎng)絡(luò)和存儲性能的加速。
換句話說,網(wǎng)絡(luò)平臺部要做的事,是要在網(wǎng)卡里新裝一個服務(wù)器。
一開始,團隊希望找到一款現(xiàn)成的商用板卡來減少工作量。
網(wǎng)卡硬件負責人Hayden牽頭開展方案論證和調(diào)研,但商用芯片的加速引擎不支持私有協(xié)議成為當時直面的第一大挑戰(zhàn),也是最大的障礙。一些著名的網(wǎng)卡設(shè)備商聽了騰訊的要求就搖頭:
“現(xiàn)在網(wǎng)卡的功能很簡單,你們這個要求太復(fù)雜了,很難實現(xiàn)的。”
還有些直白地質(zhì)疑:“網(wǎng)卡數(shù)量這么多,可靠性要求高,你們自己搞得定嗎?”
難道智能網(wǎng)卡項目剛起步就要流產(chǎn)?
鄒賢能給團隊指明了方向:“既然智能網(wǎng)卡是云數(shù)據(jù)中心追求極致性能與成本的關(guān)鍵部件,如果市面上沒有滿足騰訊需求的產(chǎn)品,那我們就自己造一個。”
方向明確之后,路線也很快清晰起來:先從基于FPGA自研智能網(wǎng)卡起步,再開展智能網(wǎng)卡芯片研發(fā)。
2020年9月,騰訊第一代基于FPGA的自研智能網(wǎng)卡正式上線,命名為“水杉”,寄寓著團隊希望產(chǎn)品可以像這種珍稀喬木一樣適應(yīng)性強、快速生長。
疫情期間各種突發(fā)需求砸來,初生的水杉沒有被挑戰(zhàn)壓彎。
Hayden回憶道,一個大客戶本身采用了UDP音視頻協(xié)議,在屬性上是“不可靠”、允許丟包的,極大地依賴網(wǎng)絡(luò)吞吐和穩(wěn)定性,卻要求高并發(fā)、高質(zhì)量的音視頻傳輸效果。
水杉智能網(wǎng)卡迎難而上,通過大幅提升服務(wù)器的網(wǎng)絡(luò)性能,幫助該客戶完成了24小時零丟包的極限壓力測試,穩(wěn)定上線運行,交出了一份漂亮的答卷。
水杉投入應(yīng)用后,第二代智能網(wǎng)卡“銀杉”的研發(fā)工作也緊鑼密鼓地啟動,并于2021年10月正式上線。這一代智能網(wǎng)卡的網(wǎng)絡(luò)端口翻了一番,達到了2*100G。
在又一棵參天大樹的支撐下,騰訊云對外推出了業(yè)界首款自研第六代100G云服務(wù)器。
它的計算性能提升最大220%、存儲性能最大提升100%。單節(jié)點接入網(wǎng)絡(luò)帶寬相比上一代最大提升4倍,延時下降50%。

● “銀杉”搭載在自研100G云服務(wù)器上
“兩棵樹”在網(wǎng)絡(luò)硬件卸載上取得的巨大收益,令團隊興奮不已。
當FPGA路線逐漸逼近性能和功耗的瓶頸,網(wǎng)絡(luò)平臺部決定再一次把主動權(quán)掌握在自己手里。
6
“玄靈”乍現(xiàn),芯事未完
騰訊的第四款芯片,也是首款智能網(wǎng)卡芯片應(yīng)運而生。
它也有一個 “仙氣十足”的名字——“玄靈”, 按照計劃,這款7納米工藝的芯片將在2022年底流片。
Hayden受命快速組建起了玄靈芯片研發(fā)團隊,不斷挑戰(zhàn)多個“mission impossible”。
從性能指標來看,玄靈支持設(shè)備數(shù)量將提升到10K以上,相對商業(yè)芯片提升6倍。同時,它的性能相對商業(yè)芯片也可提升4倍,通過將原來運行在主機CPU上的虛擬化、網(wǎng)絡(luò)/存儲IO等功能卸載到芯片,可實現(xiàn)主機CPU的0占用。
這顆短小精悍的芯片,充分詮釋了面向未來極致性能的“玄”,與面向各類業(yè)務(wù)需求靈活加速的“靈”。
目前,玄靈項目正在緊鑼密鼓地進行智能網(wǎng)卡流片前的驗證和測試,打造騰訊云下一代高性能網(wǎng)絡(luò)基礎(chǔ)設(shè)施;
蓬萊實驗室的AI推理芯片紫霄和視頻轉(zhuǎn)碼芯片滄海則將量產(chǎn),與騰訊業(yè)務(wù)深度融合應(yīng)用;
還有一些新的芯片項目也在醞釀成長,繼續(xù)探索有需要的技術(shù)方向,豐富這一本“山海經(jīng)”。
騰訊海量業(yè)務(wù)面臨的全新挑戰(zhàn),以及云計算高速發(fā)展的必然要求,“倒逼”騰訊走上了這條造芯之路。這些從業(yè)務(wù)需求出發(fā)的芯片,必定會深入現(xiàn)實應(yīng)用來證明自身的價值。
“我們不是無中生有、拍腦袋要去做芯片。我們一開始就知道,騰訊的需求足夠大,足夠我們?nèi)プ鲞@件事。”盧山說道。
從2010年起,騰訊就開始以云服務(wù)的方式對外開放自身的數(shù)字技術(shù)與連接能力,奔赴這場產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型升級的時代大潮。躬身入局,騰訊看到深度的數(shù)實融合正在引領(lǐng)全真互聯(lián)的技術(shù)趨勢。
騰訊的芯事,最終將在數(shù)實融合的星辰大海中得到回響。
審核編輯:符乾江
-
芯片
+關(guān)注
關(guān)注
459文章
52504瀏覽量
440749 -
騰訊
+關(guān)注
關(guān)注
7文章
1678瀏覽量
50296
發(fā)布評論請先 登錄
大家都在用什么AI軟件?有沒有好用的免費的AI軟件推薦一下?
芯馳科技分享本土車規(guī)芯片破局之路
芯瞳與騰訊云達成戰(zhàn)略合作,共推GPU領(lǐng)域創(chuàng)新
蘋芯出席2024中國AI芯片開發(fā)者論壇

騰訊AI助手“元寶”團隊調(diào)整至CSIG
聚焦AI芯片,角逐芯未來
騰訊申請注冊“騰訊云AI代碼助手”商標
蘋芯科技亮相2024中國AI芯片開發(fā)者論壇
MediaTek天璣移動平臺賦能騰訊會議端側(cè)AI人像分割模型
賽昉聯(lián)合國芯推出高性能AI MCU芯片,實現(xiàn)RISC-V+AI新應(yīng)用

騰訊申請注冊多枚“騰訊AI助手”商標
騰訊云與芯動科技推出聯(lián)合解決方案,推動芯片行業(yè)創(chuàng)新發(fā)展

獲50家芯片企業(yè)合作!加碼芯片賽道,騰訊云靠什么?

“從此芯出發(fā)” 此芯科技發(fā)布AI PC戰(zhàn)略暨首款芯片

評論