手機圈里是非多,大眾對尋常的互黑和拍磚已經無感了。最近在網絡上出現了一檔《快砸吧,手機》活動中,游戲規則變成用魯大師測試軟件測流暢度,誰輸誰被砸。結果在一連串的PK中,小米Note、OPPOFind7、大神X7、一加手機等機型紛紛被砸。這也惹怒了包括米粉們在內的各種手機粉絲的口水之戰。
這就是一個偏重娛樂性和新奇性的活動,本來沒有太多可評論的。但這個流暢性體驗測試的概念倒是讓人想起了已經被玩壞的“跑分”。在這個追逐體驗的時代,跑分已然成為舊黃歷上被翻過的一頁,但是消費者卻依然被卡在兩個時代的中間,往前看沒有可靠中立的體驗量化得分來作參考,回望又對傳統的跑分不屑一顧,手機測試正面臨著多重挑戰?,F在的手機評測軟件除了能測峰值計算能力之外,也開始在向體驗評測的方向演進,用某些測試軟件的缺陷來抹殺整個測試軟件的價值,這就是矯枉過正了。
手機性能跑分到底有沒有用?
現在孩子得了感冒,如果去醫院看病,醫生初步檢查之后,肯定會讓孩子先去做個血常規檢驗。驗血沒法幫孩子退燒,也不能減輕幫孩子減輕咳嗽,如果說不需要先做測試,醫生直接用眼睛看看就直接開藥得了唄,反正治愈感冒的是藥物。
事實真的如此嗎?如果缺少了驗血的環節,那就很難法判斷是細菌性還是病毒性的感染,這可是關系到到底是用頭孢還是用阿奇的關鍵,所以驗血的過程對于針對是必不可少的。
手機評測也是如此,測試儀器和測試軟件就好像驗血的設備一樣,它可以盡可能多地提供一款手機的性能參考值。不同廠商的1.7GHz4核處理器,在 CPU和GPU速度上差異是非常巨大的;同樣是5.0英寸的1080p屏幕,但它的NTSC色域和黑屏漏光可能都不在一個檔次上。對于大多數非專業用戶而來,提出看說明書參數就能得出優劣結論的人,顯然是對硬件表面和實際性能的差異缺乏深刻理解的。
為什么讀者會對性能測試感到厭煩?
不同的測試軟件有不同的用途,就像廚師要準備很多把刀具,而醫生做手術時會有幾十種專業工具一樣。就比如測一款CPU的性能,我可能會用到十幾二十種軟件,SuperPI可以直觀地看出單個核的計算能力,而wPrime則可以考察出多核協同的效率誰更高,SYSMark可以看出它在整體辦公處理的表現,而CINEBENCH11.5怎可以衡量處理器在多核浮點運算的優劣……
用大量的測試軟件雖然可以接近真相,但也會產生明顯的副作用,絕大多數的讀者都無法理解這些專業測試軟件的分數,這些辛苦測出來的數據,只有極少數發燒友和玩家所能理解,大多數的消費者面對這些天書般的數據都有隔世之感,他根本就搞不清這些分數與能不能流暢地玩游戲、能不能順暢地在網上看視頻有何關聯。
如果身在評測行業,其實導致現在評測文章質量受質疑的另一個原因,就是很多媒體把評測當成了一樁生意,而且是強調投入產出和效率的生意,在媒體經營日漸艱難的今天,為了提升效率、壓縮開著,現在的評測有流水線作業的傾向,評測師的工作年限有越來越低的傾向?,F在我熟知的資深評測師和編輯,依然在做評測的幾乎沒有了,要不成為媒體的主管離開了一線,要么去了廠商做了產品經理,這也導致了硬件評測青黃不接的狀況日益嚴重,這些專業的數據不能用深入淺出的文字轉變為結論,那么這些辛辛苦苦測出的數據確實也失去了現實意義。
分數的艱澀只是一方面,更多的是在于商業戰爭引發的信任感危機。在過去很長一段時間內,不服跑個分,成了手機廠商營銷的一個工具。而這種所謂的性能測試軟件,其實主要就是體現CPU/GPU的峰值計算能力,以及RAM和閃存的讀寫速度,這雖然具有一定的參考意義,但卻存在跑分與實際體驗存在巨大的差異,很多安卓旗艦跑分動輒數萬,但論流暢度來說,卻比在核數和頻率上一直處于劣勢的iPhone要遜色很多。
尤其是當安兔兔被直接被雷軍系收購之后,以安兔兔為代表的性能測試已經徹底地淪為了手機廠商堆料拼配置的工具,它距離用戶的實際體驗越來越遠,也離公正性越來越遠。而芯片廠商為了迎合這種飚分需求,也紛紛在驅動中加入專門針對測試軟件的優化,這也讓一部分性能測試為主的軟件徹底地遠離了最終用戶的期待,而逐步淪為營銷工具。這些亂象確實都是當今手機客觀評測遇到的巨大挑戰,我們需要跑分就像我們依然需要尺子來測量,但是如果這把尺子本身就刻度不準,與實際情況相差甚遠,那要它何用?
體驗評測與純性能測試有何不同?
我們在文章開頭就提到了“體驗評測”這個概念,其實他與純性能跑分并不是一回事。對于要購機的用戶來說,他們希望通過跑分來幫助選購,然而用戶按照性能評測軟件給出的成績來購買智能手機,在實際使用中會發現,那些牛逼閃閃的跑分高手,用過一段時間就會出現卡頓。硬件參數和硬件性能實際表現常常是背離的。
不管是PC還是手機,性能極限測試是必要的參考,這種測試能展示出一款產品的性能上限,雖然你不一定能用得上,但是可以讓你花錢買的時候知道這筆費用能帶來的最大效果有多少。然而極限跑分卻不能說明體驗是怎么樣的,電腦端的SYSmark、PCmark是在模擬測試性能極限,是為了找出性能的巔峰所在。
手機APP一直在增多,文件垃圾也在堆積,手機本身也在逐步的老化,硬件老化性能下降,體驗感受逐漸下降。一部手機用上幾個月就能明顯感到卡頓,但是跑出來的分數還是沒有變化,依舊高達好幾萬,這樣的跑分有什么參考價值?
體驗評測要實現的目標,就是能測出日常用的APP打開得快不快,拍照質量好不好,看個網頁是不是會卡住,或者在進行一個簡單的桌面左右滑動時,哪款手機是最順滑。
用戶到底需要什么樣的評測?
最近有文章提出了一個眾測的概念,其實在十年前我做過類似的嘗試,那是一次大型的多媒體音箱評測,我請了近十位在音頻領域很專業的評測師和發燒友,用紗簾擋住被測音箱,這些評委跟現在中國好聲音盲選一樣,只能通過音質在表格上給出評分。
這樣結果是客觀了,但主要的廣告主卻不干了,人家出了廣告費,結果評測中排名并不理想。所以很遺憾這樣的評測嘗試沒能堅持進行。眾測看似客觀公正,但也繞不開商業利益的左右,否則姚貝娜也不會在大眾評審團的投票中輸給萱萱了,請哪些人來這是主辦方可以操作的。所以網友們也看得很清楚,除非是王思聰這種不差錢的主兒來做評測,否則你別把評測想得過于中立和萬能,這原本就是一樁生意,你能看到的比較好的評測,也是在中立性和商業之間做了較好的平衡而已。
到手機評測這事上,由于近幾年硬件規格一直在高速提升,所以跑分成績也一路攀升,但消費者卻發現,哪些跑分高的體驗也未必流暢,這其實涉及到軟件系統的優化和測試軟件的不足。
但手機測試軟件也在成熟和發展,那種純性能跑分的測試會逐漸被消費者遺棄,因為得分再高確實是然并卵。沒有一種測試方法和測試軟件是萬能的,但從實際參考意義和準確性而言,未來的測試方法一定會更加貼近消費者的實際使用場景和體驗。
為了避免商業利益的干擾,所以在測試子項目中應該盡量選擇消費者最常用的APP加載、網頁加載、圖片縮放查看、文件拷貝等日常的操作,并且盡量做到實景化。所謂實景化就是從標準化的場景中跳出,調用用戶的產品自帶的真實資源,來建立完全個性化的測試環境,這樣才能更大程度反應手機當前的實際表現,這樣的客觀測試才能夠盡可能地避免商業利益的干擾,讓測試成績更能體現出真實的流暢度,從而更具有參考性和實用性。
大家喜歡看數碼達人做的手機測試視頻,是因為體驗是未來評測的一個重要方向,是消費者真正關注的。然而體驗測試想要實現精確和量化還有很長的路要走,什么時候能做到對大家都關心的信號強度、電池續航、拍照能力、甚至抗摔性有了全面真實的反應,這才能真正對導購起到指導作用,這需要在測試方法和測試手段上做大膽嘗試和創新才行,這不是現在投資幾百萬購買一堆測量儀器就能立馬解決的。
在文章最后,我希望真正對手機評測感興趣的朋友,應該盡可能多地嘗試一些測試軟件和專業測試儀器,甚至可以自己編寫測試腳本和測試規范,只要這些體驗評測能夠更貼近真實情景和真實體驗,那么這種嘗試就非常有意義,也能幫助那些有選擇困難癥的消費者,這才是真正的發燒友或者評測師該干的事。如果只知道看別人的評測,只會挑毛病和吐槽,就是一年換一百款手機,那依然還是一個一知半解的硬件小白。
評論