近期,2025全球人工智能技術大會(GAITC2025)于杭州盛大開幕,匯聚全球頂尖科學家、技術領袖及行業先鋒,共同探討人工智能技術產業化新趨勢。京東零售AI Infra &大數據計算負責人張科受邀出席并在《行業大模型應用與發展》論壇發表演講,首次深入介紹京東零售在端云一體大模型推理架構的實戰經驗與技術探索,并分享AI推理方向的未來發展思考。以下為張科分享實錄,內容經編輯略有刪減:
電商場景AI推理的挑戰
大模型技術突飛猛進,大模型不僅是算法和算力的集合體,更是產業智能化的新底座,正在推動AI從“可用”向“好用、可控、可信”邁進。電商場景作為AI技術的應用場,逐步形成了三個主要的需求方向:
Generative AI
(如AI生成商品圖、短視頻、AI營銷內容生成、AI數字人)、
Agentic AI
(如AI客服與售后管理、AI經營托管、AI倉配優化 、AI交互式推薦)、
Physical AI
(如自動分揀機器人、智能空間、自動駕駛)。在復雜場景與多元需求的驅動下,AI推理正面臨一系列技術挑戰,包括輸入類型多樣、用戶需求優先級不同;端(如手機)和云(服務器)之間任務分配難、協同優化難;模型壓縮和性能優化等問題。
京東零售聯合清華大學推出 xLLM 端云一體大模型推理架構
2022年起,京東與清華大學開啟深度合作,在計算機視覺、機器學習、推薦系統、大數據等領域聯合開展了十余項課題研究。今年雙方進一步拓展合作邊界,新增
大模型推理引擎國產化、多模態推薦大模型
等前沿方向,聚焦整合技術資源與學術優勢,共同探索前沿技術創新,推動科研成果向實際生產力轉化。自今年初大模型推理引擎國產化合作開展以來,京東零售和清華大學一起在大模型量化壓縮、端-云協同推理引擎等方向聯合攻堅,并提出“xLLM 端云一體大模型推理架構”,以解決推理引擎的性能優化問題、助力大模型技術在復雜電商環境的規模化落地。通過端云聯合部署,實現高效協同推理。利用終端用戶數據和反饋,云端模型持續優化并實時更新終端輕量化模型,形成閉環進化系統,提高模型在實際場景中的性能。該架構還可適應不同終端設備資源限制,實現大模型更廣泛復用。
xLLM端云一體大模型推理架構中的技術探索還表現在以下4個方面:
1.自適應調度優化:
動態調整Prefill與Decode節點比例,實現動態的自適應彈性PD能力。
2.在離線統一調度:
根據負載實時調度在離線請求,實現請求級別的在離線混部的能力。
3.多層流水線執行:
最大化資源利用率,通過調度和模型執行異步流水線、不同Layer的計算和通信異步流水線、不同計算單元、訪存并行流水線的多層流水線執行。
4.端云Agent協同:
端Agent處理簡單任務與隱私數據,云 Agent 不斷反饋優化,提升端 Agent 能力,并基于高效 Agent 協議協同。目前該推理架構已經在內部多個場景應用,在可交互式導購、商品對比、商品總結、購物建議等環節,大幅提升了響應速度,節省了計算成本,同時還有效助力了用戶的活躍度。在核心的商品理解環節,也有效提升了大模型的理解能力和信息處理能力,模型推理成本最高可節省70%。
AI推理方向的未來思考
在現有技術探索的基礎上,未來京東還將持續加大對國產 AI 基礎設施的投入力度,著力構筑自主可控的技術生態體系。京東將重點聚焦三大前沿方向展開深入研究:
破解規模、效率、成本的 “不可能三角”、推進(端云)多智能體異步自進化、端云分布式推理的可解釋和可調試
。通過上述布局,京東希望逐步實現主流國產芯片的深度適配優化,并基于自主研發的大模型推理框架,推動技術效率達到國際先進水平。也希望和業界同行共探技術邊界、一起前行。
審核編輯 黃宇
-
AI
+關注
關注
88文章
34781瀏覽量
277120 -
人工智能
+關注
關注
1805文章
48899瀏覽量
247973 -
大模型
+關注
關注
2文章
3086瀏覽量
3972
發布評論請先 登錄
DeepSeek賦能,大模型一體機破解企業AI落地難題

首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
華為發布云網端一體化網絡安全解決方案
中科曙光助力天翼云打造“翼政通”大模型一體機
壁仞科技推出阿里QWQ-32B大模型一體機

標普云DeepSeek一體機發布:零門檻部署企業DeepSeek
曙光云發布DeepSeek大模型超融合一體機
曙光云推出DeepSeek大模型一體機
云從科技從容大模型訓推一體機成功適配DeepSeek

評論