“公元5世紀中期,一位不知名的基督教詩人離世,而這一年恰好是某古代環境重建年表的截止年份。這個科學年表叫什么名字?”
面對如此冷門的問題,恐怕連最資深的學者都會陷入沉思。既不知道詩人姓名,又不清楚年表名稱,傳統搜索引擎在這里完全失靈,兩個看似毫不相關的信息點就像大海中的兩粒沙子,讓人無從下手。
就是這樣讓人一頭霧水的難題,一款名叫WebSailor的智能體卻能通過交叉驗證快速鎖定正確答案:詩人是 Synesius of Cyrene、科學年表“PAGES 2k”、時間414年。
這不禁讓人震驚:什么時候AI已經進化到如此程度?
要知道,就在半年前,Agent還被普遍認為是玩具屬性大于工具屬性。大部分產品內測名額一票難求,實際表現卻頻頻翻車。
盡管最初效果不如人意,智能體的進化速度卻很快。如今,在營銷、醫療等專業領域,Agent的表現甚至已超過人類水平。
今天,我們一起來扒一扒上半年有哪些智能體,已經超出了我們以往的想象。
面對世錦賽級別的金融建模題,即便是經驗豐富的分析師,往往也需要數小時推演驗證。但如果現在告訴你,有人能在10分鐘內給出準確答案,你相信嗎?
這樣復雜的任務,即使放給市面上最優秀的大模型,也可能一籌莫展。但一款名叫Shortcut的智能體卻在短短10分鐘內完成了,不僅準確率超80%,時間比人類快了整整10倍。
Excel世錦賽有多難?
它由微軟官方背書、FMWC 組委會運營,任務涵蓋復雜函數、Power Query、動態數組、蒙特卡洛模擬等,被選手形容為“最殘忍的函數修羅場”。參賽選手來自全球各地,多為投行數據分析師、四大財務建??偙O、微軟前MVP,學歷資歷含金量拉滿。
而這一屆考題,也就是Shortcut的首秀試題,以《魔獸世界》30周年為主題,要求選手在40分鐘內完成20多個關聯表格操作。參賽者需手動建立VLOOKUP、INDEX-MATCH等公式,在復雜的數據迷宮中建立精準鏈接。
對此,Shortcut不僅克服了傳統AI模型在數據處理量上的限制,更完美避開了幻覺輸出的痛點。面對海量無序數據和確定性極強的函數規則,它能像經驗豐富的分析師一樣,快速理解任務需求并給出精準解決方案。原本需要人類選手1~2小時才能完成的賽題,Shortcut僅用10分鐘就交出了完美答卷。
據開發團隊透露,Shortcut支持自然語言指令交互,能輕松應對金融建模、5000行CSV數據分析、數據可視化甚至像素畫創作等復雜任務。其核心能力涵蓋智能填充、錯誤自動排查、多表關聯分析等專業功能,堪稱Excel領域的六邊形戰士。
看到這樣的財務人員,或許會直呼遇到了救星。
因為財務部門最愁的就是數不勝數的數據、表格、文件,但前期AI發展受制于token限制和幻覺,無法處理成百上千的數據,一個小數點、標點符號的錯誤都會給公司帶來難以估量的損失。這一度也給公眾留下了AI無法解決實際難題的印象。
而Shortcut的出現則打破局面,給這個痛點帶來了新的可能。
畢竟,5000行CSV數據如果一行一行錄入校對,可將近一周的工作量。現在,盡管Shortcut仍存在復雜函數作圖出錯的可能,但就是解決單一的信息整理工作,也能挽救他們日漸稀少的發量了。
在外貿行業,銷售團隊拼盡全力,可能也只能將成交率從10%推到15%。但有一家公司,卻悄無聲息地把這個數字拉到了50%——不是靠瘋狂加班,不是靠人海戰術,而是靠一個看不見的銷售王牌。
竟對公司以為對方請來了高人,客戶認為自己在自主決策?不,他們可能早已掉進Agent精心設計的溫柔陷阱。
數據顯示,一個傳統業務員的成單率一般在10%~15%。而一款叫Agentforce的智能體成單率卻達到了50%。自2024年上線以來,成單超過8000單。
最讓業務員扎心的是,這款Agent不僅成交率高、簽單額也不低,動輒七位數美元級。這些大單如果由自己簽下,提成起碼四位數起??涩F實是,最老練的銷冠也不得不思考,為什么苦心經營的技巧和話術,被一個橫空出世的Agent截胡了?
第一點,要休息的人類拼不過輪軸轉的機器。跨國貿易中流傳著一句話,誰越能熬夜,誰就越能賺錢。時差的存在產生了外貿的白夜班作息,但仍然沒有人能24h堅守崗位,在顧客決定下單的那一時間精準說服他。Agentforce做到了,它像一臺永不疲倦的數字銷售系統,在7×24h模式下并發處理數千條對話,把人工坐席數減少30~60%。
第二點,統一刻板的話術比不過八面玲瓏的“奉承”。為什么客戶在下單時常常意識不到是AI讓它動心了呢?因為在21世紀,真的找不到比AI更會阿諛奉承的角色了。傳統銷售依賴人力,業務員靠經驗判斷客戶意向,受個人情緒、疲勞度影響,很難編織出對胃口的話。但Agentforce能夠實時分析官網瀏覽、郵件互動等行為痕跡,鎖定高意向目標,并通過情感分析自動調整話術,提升后續轉化率。
第三點,只會母語的人比不過精通外語和百科的AI。有了AI,會一門外語真的不能算是顯著的有實力。據悉,Agentforce的訓練語料橫跨17種語言,涵蓋74萬份Salesforce官方文檔與元數據。依托Salesforce總量高達200~300PB的行業級數據湖,Agentforce獲得了遠超同類產品的上下文深度和領域精度,從而顯著降低幻覺風險,給出更可靠的結果。
我們有理由相信,在未來,Agent業務員將會進攻到每一個交易領域,不管是大宗商品、還是小本生意,它的成交率將越來越高、成交范圍也會越來越廣。
AI開的藥,你敢吃嗎?
我們都知道,AI已經走進了各個領域,醫療也不例外,但對于直接吃AI開的藥,或許大部分人還是會膽戰心驚。畢竟,用藥量的微小差異可能導致成癮性,用藥方案的微小偏差也可能引發嚴重的副作用,可謂失之毫厘、謬以千里。
但如果告訴你,AI醫生的診斷準確率甚至超過了專業醫生,你能相信嗎?
在美國,一款名叫Polaris的醫療Agent能夠為患者提供真實的用藥意見,醫療建議準確率超過99%,遠高于美國注冊護士81%的平均水平。并且,該智能體推薦的藥品和復診意見,在病人的好評率中趨近于90%。這意味著,AI不僅比人準,甚至比人更受患者信任。
但作為Agent,它是如何做到的呢?這源于多個智能體的協同工作和交叉驗證機制。
Polaris由三個Agent共同出診,而非單一模型獨立決策。例如,當患者詢問某種藥物的副作用時,實驗室Agent檢索最新的藥物臨床試驗數據,確保信息基于權威醫學研究;藥物Agent核對患者的用藥史、過敏記錄,避免潛在的藥物相互作用風險;主要Agent綜合前兩者的分析,生成最終建議,并標注置信度。
為了進一步保證用藥安全和患者福利,超過6500名護士、500名醫生參與了最終安全評估,助力該系統獲得FDA認可的醫療AI專利。
據悉,在阿聯酋,Polaris已被整合進Burjeel醫療集團的數字系統。在超過185萬次真實患者互動測試中,Polaris3.0臨床準確率高達99.38%,患者滿意度達8.95/10。
但需要注意的是,Polaris目前只能在有明確解法和醫學案例的疾病上給出問診方案和醫療建議,無法直接參與藥物研究開發。也就是說,醫療智能體更強調常規病例的診斷正確率,而不是研發創新工作。所以某種程度上,它只能在臨床發揮作用,而不能參與罕見病藥物開發等前沿工作。因為對于醫院這樣生命優先的場景,安全一定是第一位的。Agent想要跟專業醫生媲美,還有一大段路要走呢。
不難看出,短短一年,智能體已經逐漸超出了人們的想象。從這些智能體的發展軌跡中,我們能清晰地看到一個趨勢:Agent正在從概念走向實用,從實驗室走進我們的日常工作生活。它們不是冷冰冰的機器,而是逐漸成為各領域專業人士的得力助手。WebSailor讓研究人員不再被海量文獻淹沒,Shortcut解放了財務人員的雙手,Agentforce成為銷售團隊的秘密武器,Hippocratic則是醫護人員的第二大腦。
這些智能體最可貴之處在于,它們并非要取代人類,而是通過彌補人類在效率、記憶力和計算能力上的局限,讓我們能把更多精力投入到真正需要人類智慧的領域。就像望遠鏡延伸了人類的視野,這些Agent工具正在擴展我們的認知邊界。
在可以預見的將來,我們每個人或許都會擁有一個甚至多個智能體作為助手:幫我們學習新知識的Agent導師、管理日程的Agent秘書、照顧健康的Agent醫生、創作內容的Agent伙伴……但就像歷史上所有偉大的工具一樣,它們不會取代我們,但會讓我們變得更強,最終成為人類能力的一部分。
審核編輯 黃宇
-
AI
+關注
關注
88文章
35109瀏覽量
279610 -
Agent
+關注
關注
0文章
133瀏覽量
27820
發布評論請先 登錄
評論