在接觸數(shù)據(jù)采標(biāo)行業(yè)過程中,黑智聽到一個(gè)陸奇和河南標(biāo)注工廠的故事。
據(jù)悉,大部分河南標(biāo)注工廠用的是百度的標(biāo)注工具,干的是百度的活。陸奇掌旗百度時(shí),放出了大量采標(biāo)需求。當(dāng)時(shí),活不難(準(zhǔn)確率只有90%),標(biāo)注的利潤(rùn)空間可以達(dá)到60%—70%。有些企業(yè)盲目擴(kuò)張,一下子招了幾百人;陸奇離開后,百度需求恰也減少。2018年下半年,準(zhǔn)確率又普遍提高至95%-96%,活難干了。這些工廠只會(huì)百度的標(biāo)注工具,很難接別家的業(yè)務(wù),因此死了一批。沒有死的工廠不得不裁員,目前處于艱難轉(zhuǎn)型中。
當(dāng)河南標(biāo)注工廠艱難轉(zhuǎn)型時(shí),張三的標(biāo)注公司卻正式營(yíng)業(yè)。公司初建,百事繁雜,前幾天,黑智才在中午空閑時(shí)間,聯(lián)系上他。他告訴黑智,兩個(gè)年前的單子需要返工,一直在忙。對(duì)于初建公司,忙比閑好。如果有一天空閑下來,張三說他晚上都會(huì)睡不著覺,“一天沒活干,幾千塊錢就打水漂了。一個(gè)月得支出15萬(wàn)(注:目前,公司有65名員工)。”
在他看來,標(biāo)注行業(yè)是一個(gè)苦行業(yè),“前半年,一定會(huì)賠錢的,你要做好一個(gè)人賠一萬(wàn)塊錢的準(zhǔn)備。”他笑著告訴黑智,“如果你和誰(shuí)有仇,就勸他干標(biāo)注吧。”這是標(biāo)注圈有名的段子。
標(biāo)注圈說大不大,說小也不小,分了四個(gè)梯隊(duì)。張三說,他的公司屬于第三梯隊(duì)。第一梯隊(duì),比如百度眾測(cè)、京東眾智等。第二梯隊(duì),比如龍貓數(shù)據(jù)、Testin云測(cè)、倍賽 BasicFinder、數(shù)據(jù)堂等。他將第二梯隊(duì)和第三梯隊(duì)的關(guān)系,比做小房地產(chǎn)開放商和搬磚工人。第三梯隊(duì)之下,是數(shù)量巨大的小作坊,團(tuán)隊(duì)規(guī)模在3-5人之間。
標(biāo)注行業(yè)又是一個(gè)有前景的新生行業(yè)。
新生意味著不確定與無(wú)限可能,“干標(biāo)注就像將水倒進(jìn)一個(gè)水桶里,每拉一個(gè)框就是添一碗水。目前,誰(shuí)也不知道還能添多久,只有水溢出來時(shí),才知道。”這并不妨礙張三設(shè)計(jì)未來,“第一步,現(xiàn)階段先服務(wù)好第二梯隊(duì),以后搞一個(gè)平臺(tái),把公司做成第二梯隊(duì)。”
300億市場(chǎng)與轉(zhuǎn)折點(diǎn)
數(shù)據(jù)采集、標(biāo)注市場(chǎng)有多大?300億元。
1984年前后,這個(gè)市場(chǎng)就出現(xiàn)了。欣博友的公司是眾多公司中的一家。當(dāng)時(shí),這些公司更像一個(gè)“錄入公司”——將紙質(zhì)內(nèi)容電子化,而不是標(biāo)注公司。“錄入”是一個(gè)勞動(dòng)密集型的工作,一家公司需要雇傭很多人來做這件事。智聯(lián)招聘顯示,欣博友在公司人數(shù)項(xiàng)上,勾選的是“1000—9999”。
和欣博友不同,海天瑞聲成立于1998年,做的是語(yǔ)音標(biāo)注,自建了很多語(yǔ)音庫(kù),業(yè)內(nèi)人士告訴i黑馬&黑智,重復(fù)銷售以前做的語(yǔ)音庫(kù)是海天瑞聲比較大一塊業(yè)務(wù)。數(shù)據(jù)堂成立于2011年,通常外界對(duì)其最深印象是“它是國(guó)內(nèi)最大的數(shù)據(jù)交易平臺(tái)”。這和其起家業(yè)務(wù)相關(guān)。
2015年前后,隨著以榜單中的人工智能公司TOP50的強(qiáng)勢(shì)崛起,數(shù)據(jù)標(biāo)注和采集需求逐漸多了起來。這個(gè)市場(chǎng)才真正意義上形成,也即前面提到的四個(gè)梯隊(duì)。他們作為乙方,進(jìn)入到這個(gè)日益擴(kuò)大的市場(chǎng),為估值超10億美金的AI獨(dú)角獸服務(wù),教能夠改變世界的人工智能產(chǎn)品學(xué)習(xí)。
01 得數(shù)據(jù)者得AI的天下
數(shù)據(jù)是AI公司的必需品。就像人每天需要一日三餐,而AI模型也每天需要數(shù)據(jù)的喂養(yǎng)。數(shù)據(jù)和AI模型的關(guān)系,倍賽 BasicFinder創(chuàng)始人兼CEO杜霖理解深刻。高中期間,他開始研究計(jì)算機(jī)視覺,高三發(fā)表了論文。大學(xué)期間,他也一直在做相關(guān)的研究。他知道數(shù)據(jù)對(duì)于AI模型的重要性,并得出“AI建模沒有門檻,數(shù)據(jù)才是門檻”的結(jié)論。
在他看來,現(xiàn)階段的人工智能是簡(jiǎn)單的認(rèn)知智能。“認(rèn)知智能就是幫你去識(shí)別、分類這個(gè)世界。分類器的構(gòu)造是個(gè)數(shù)學(xué)問題,就是由數(shù)據(jù)堆起來的。”“深度學(xué)習(xí)本質(zhì)上是個(gè)數(shù)學(xué)問題,是由大量的樣本空間數(shù)據(jù)反向構(gòu)造分類器的系數(shù)空間的過程。你要有很多樣本,什么叫樣本?知道正確答案的才叫樣本。這跟我們小時(shí)候求多樣式、求系數(shù)式是一個(gè)道理。我們要有很多空間中的已知點(diǎn),才能擬合成一個(gè)多樣式。同理,深度學(xué)習(xí)也是這個(gè)模式,也需要大量樣本,也即標(biāo)定好的數(shù)據(jù)。”
于是,杜霖認(rèn)準(zhǔn)了“在現(xiàn)階段工業(yè)界的AI應(yīng)用研發(fā),標(biāo)數(shù)據(jù)是一定跳不過去的,可能10年之內(nèi)都要依賴于標(biāo)數(shù)據(jù)。”數(shù)據(jù)對(duì)于AI的重要性如斯,但數(shù)據(jù)的標(biāo)注和采集公司并沒有學(xué)界、業(yè)界、資本甚至是媒體的認(rèn)可,光環(huán)一開始便屬于那些做模型研發(fā)的AI公司,比如商湯科技、曠視科技等。
“一個(gè)公司做成了很好的人工智能產(chǎn)品,大家都會(huì)說人工智能算法牛或者科學(xué)家牛,但從沒見人說數(shù)據(jù)收集得好的。”Testin云測(cè)VP賈宇航說。賈宇航告訴i黑馬&黑智,不但鎂光燈照不到,數(shù)據(jù)采標(biāo)還是個(gè)“苦活”。苦到?jīng)]有人想去做。它很像移動(dòng)互聯(lián)網(wǎng),產(chǎn)品好,沒人想到軍功章有APP測(cè)試者一份。一旦出了問題,第一個(gè)被責(zé)備的一定是做測(cè)試的部門。
02 300億元數(shù)據(jù)采標(biāo)市場(chǎng)
數(shù)據(jù)對(duì)于AI公司的重要性不言而喻。據(jù)悉,AI公司投入10%—15%的經(jīng)費(fèi)用于數(shù)據(jù)采標(biāo)。也有人提到,這一比例為20%—30%。
2018年,中國(guó)AI公司的總?cè)谫Y規(guī)模達(dá)到千億元以上,數(shù)據(jù)采標(biāo)的市場(chǎng)約為100億元—300億元。其中,有三分之一是AI公司內(nèi)部的標(biāo)注部門之間消化的,有一些會(huì)被商務(wù)流程外包公司瓜分,剩下的25%—33%流向?qū)iT做數(shù)據(jù)采標(biāo)的第三方公司。目前,AI融資規(guī)模約以每年25%的速度在增長(zhǎng)。
隨著AI技術(shù)門檻的降低,越來越多的公司開源了自己的框架,把數(shù)據(jù)喂進(jìn)去就能出來一個(gè)模型。越來越多的頭部垂直公司開始建立AI部門,之前它們多會(huì)把業(yè)務(wù)交給做AI模型的公司來做,這兩年,龍貓數(shù)據(jù)、Testin云測(cè)、倍賽 BasicFinder的很多客戶不是來自AI行業(yè)的客戶,而是傳統(tǒng)公司的AI業(yè)務(wù)部門。龍貓數(shù)據(jù)創(chuàng)始人兼CEO昝智認(rèn)為從這個(gè)角度來看,市場(chǎng)規(guī)模并不好算,BAT、小米、京東、TMD等互聯(lián)網(wǎng)公司和傳統(tǒng)行業(yè)里的傳統(tǒng)企業(yè),它們會(huì)拿出多少預(yù)算做AI,不得而知。唯一可以肯定的是,這兩三年,數(shù)據(jù)采標(biāo)的市場(chǎng)規(guī)模越來越大。
這兩三年,AI模型對(duì)數(shù)據(jù)采標(biāo)的復(fù)雜度和精細(xì)度要求也越來越高了。比如說,現(xiàn)在,做一個(gè)人臉拉框,人臉的拉框精度要求在五像素以內(nèi)或者三像素以內(nèi);又或是,整批數(shù)據(jù)精確度需在97%或者99%以上。賈宇航認(rèn)為,精度的提高是AI行業(yè)發(fā)展的必然結(jié)果。對(duì)于AI行業(yè),有一句話叫 Garbage in, Garbage out,低精度的標(biāo)注數(shù)據(jù)對(duì)于算法沒有任何意義。只有能持續(xù)輸出高精度采標(biāo)數(shù)據(jù),才是一個(gè)能持續(xù)保持競(jìng)爭(zhēng)優(yōu)勢(shì)的服務(wù)商。
第二,更龐大、更多樣的數(shù)據(jù)規(guī)模。龐大在于數(shù)據(jù)量會(huì)更大,以傳感器為例,隨著傳感器成本下降,并被大量應(yīng)用,將有更多大量的數(shù)據(jù)需要被標(biāo)記;更多樣指的是更豐富的數(shù)據(jù)維度,在今年的CES展上,松下推出的智能家居解決方案,不僅僅通過電視上的攝像頭觀測(cè)人臉的疲勞度,還通過椅子上的電容傳感器,去檢測(cè)人的心跳。而之前,疲勞檢測(cè)只是通過攝像頭捕捉人臉。將來,更多維度的數(shù)據(jù)將被收集,不單單是2D的圖象、聲音,3D的激光雷達(dá)以及心跳數(shù)據(jù)等也將被納入到采標(biāo)的范圍內(nèi)。
03 轉(zhuǎn)折點(diǎn)
需求側(cè)的變化,不可避免地在供給側(cè)引起不小的地震。供給側(cè)開始從密集勞動(dòng)型行業(yè)向新產(chǎn)業(yè)、新模式——工具+眾包轉(zhuǎn)型。洗牌開始了,數(shù)據(jù)采標(biāo)迎來了下半場(chǎng)。
受負(fù)面影響最大的第四梯隊(duì)。無(wú)論是采標(biāo)的復(fù)雜還是要求愈高的精度,對(duì)于它們來說都不是好消息。去年中旬以來,每天十幾、二十幾家小作坊要求掛靠在倍賽 BasicFinder旗下,這說明小作坊已經(jīng)失去業(yè)務(wù)的來源。“他們靠低質(zhì)量數(shù)據(jù)和低價(jià)搶市場(chǎng)的模式,已經(jīng)不能持續(xù)了。因?yàn)锳I工程師不能接受低質(zhì)量的數(shù)據(jù),也不能接受不靠譜的交期。”杜霖說。
張三認(rèn)為,第四梯隊(duì)壞了規(guī)矩。他們先靠低價(jià)四處搶單子,而后內(nèi)測(cè)什么樣的項(xiàng)目能夠在單位時(shí)間內(nèi)產(chǎn)出最多,再去做這個(gè)項(xiàng)目。其它項(xiàng)目,則被分包給更小的團(tuán)隊(duì)去做。質(zhì)量難以保證。“他們不算房租、管理等,只核算人工費(fèi)用。他們的邏輯是一個(gè)人一天50塊錢,高于這個(gè)價(jià)就是賺的。于是他們就報(bào)100元的單價(jià)。而第三梯隊(duì)需要承擔(dān)房租,稅收、管理費(fèi)用以及每天的喝水吃飯等亂七八糟的消耗,至少報(bào)200元的單價(jià),才可以做。”
早期,第四梯隊(duì)靠著這種方式,賺了一些錢,回收了硬件成本,并有結(jié)余。但2018年初,第二梯隊(duì)開始做店測(cè),“看看你有多少人,看看你的場(chǎng)地。你不專業(yè),行業(yè)正在慢慢把你淘汰掉。”淘汰,意味著沒有業(yè)務(wù)來源,那么多人需要吃飯、拿工資,不專業(yè)的第四梯隊(duì)危機(jī)便出現(xiàn)了。即便能夠找到項(xiàng)目,采標(biāo)項(xiàng)目的要求提高,比如準(zhǔn)確度要達(dá)到95%甚至是99%以上,小作坊必須從團(tuán)隊(duì)中抽出一部分人脫產(chǎn)質(zhì)檢和最后的抽檢,成本也會(huì)上升。
壓力,對(duì)于行業(yè)中的每一個(gè)參與者都是同樣的。對(duì)于龍貓數(shù)據(jù)、Testin云測(cè)、倍賽 BasicFinder等第二梯隊(duì)公司來說,他們需要?jiǎng)?chuàng)業(yè)迭代,他們需要想清楚在這個(gè)過程中如何突破自我,不斷創(chuàng)新,走出自己的舒適區(qū)。他們找到了一個(gè)抓手起步,需要思考的是未來怎么才能取得全勝。
業(yè)界認(rèn)為,第四梯隊(duì)危機(jī)的出現(xiàn),有利于實(shí)力強(qiáng)大的第二梯隊(duì)靠著服務(wù)質(zhì)量與效率搶占退出的小作坊留下的市場(chǎng)空白。
新階段與新競(jìng)爭(zhēng)
數(shù)據(jù)標(biāo)注和采集是一個(gè)技術(shù)活。
需求來到,采標(biāo)公司做兩個(gè)方面的工作,一,調(diào)配和研發(fā)模塊,二,進(jìn)行試標(biāo),并嘗試總結(jié)規(guī)則,并培訓(xùn)。做完了這兩方面的工作,公司會(huì)向需求方報(bào)價(jià),報(bào)價(jià)過程中,采標(biāo)公司回去準(zhǔn)備相關(guān)應(yīng)標(biāo)材料或者應(yīng)答材料。
中標(biāo)之后,采標(biāo)公司開始傳輸數(shù)據(jù),上傳到平臺(tái)上,并開始配置生產(chǎn)和標(biāo)注業(yè)務(wù)。據(jù)悉,數(shù)據(jù)標(biāo)注業(yè)務(wù)的配置是一個(gè)復(fù)雜的數(shù)學(xué)模型。比如,有些任務(wù)需要串并聯(lián)的工作流,并聯(lián)的工作流是多人協(xié)同的工作。串聯(lián)的工作流是后一個(gè)結(jié)果是基于前一個(gè)結(jié)果進(jìn)行處理的,串并聯(lián)的工作流需要平臺(tái)來實(shí)現(xiàn)業(yè)務(wù)工作流的配置。比如一些NLP型的文本標(biāo)注作業(yè),需要多個(gè)人來標(biāo),最后N選一或者投票。串并聯(lián)配置涉及到底層數(shù)據(jù)流的分發(fā)等。
標(biāo)注過程中,質(zhì)量的協(xié)同管理和績(jī)效的統(tǒng)計(jì)非常關(guān)鍵。平臺(tái)需及時(shí)統(tǒng)計(jì)到每個(gè)人的準(zhǔn)確率、穩(wěn)定性以及效率。標(biāo)注完了之后,客戶驗(yàn)收前,采標(biāo)公司還需要抽檢。最后,公司按照與客戶約定的格式進(jìn)行交付,這又涉及到格式轉(zhuǎn)化的問題。
以上過程包含了整個(gè)標(biāo)注系統(tǒng)所有的技術(shù)核心點(diǎn)。標(biāo)注和采集服務(wù)并不是堆人就能夠干出來的。對(duì)于依靠人力的第三、第四梯隊(duì)來說,賈宇航認(rèn)為,如果它們想轉(zhuǎn)型眾包+工具的新生產(chǎn)方式,“局限性比較大”。理由有二:
一、數(shù)據(jù)行業(yè)的領(lǐng)頭者會(huì)通過這3年的持續(xù)服務(wù),在客戶圈贏得口碑,品牌效應(yīng)會(huì)給其帶來一定的商業(yè)積累。一些更在意質(zhì)量、更在意投入產(chǎn)出比的公司會(huì)逐漸向領(lǐng)頭者們傾斜。
二、技術(shù)優(yōu)勢(shì)。頭部標(biāo)記公司有資金去優(yōu)化自己的工具和應(yīng)對(duì)客戶的定制化需求,并通過管理經(jīng)驗(yàn)優(yōu)化對(duì)應(yīng)的服務(wù)體系和流程。而對(duì)于小團(tuán)隊(duì)想要快速建立已有工具和流程化體系去覆蓋一個(gè)或多個(gè)行業(yè)是有局限性的。有兩條路可供它們選擇,第一,精簡(jiǎn)團(tuán)隊(duì),專營(yíng)一個(gè)或幾個(gè)AI公司的業(yè)務(wù),做一個(gè)小而美的生意;第二,與精英合作,使用精英提供的工具,做平臺(tái)分配過來的任務(wù)。
對(duì)于尚未入場(chǎng)的后來者來說,如果后來者一開始便立志做一個(gè)眾包+工具的平臺(tái),除了克服商務(wù)壁壘外,在眾包方面,眾包平臺(tái)需要強(qiáng)運(yùn)營(yíng)能力,需要足夠多的人在平臺(tái)上。平臺(tái)方需要考慮如何拉新,如何保留日活、月活等。在工具方面,只有一個(gè)可采標(biāo)的APP也是不夠的,沒有便捷的溝通方式減少誤差的傳遞,也是很難做成的。這就像木桶理論一樣,缺一塊板都裝不了水。換言之,留給新進(jìn)入者的窗口期逐漸關(guān)閉。
業(yè)內(nèi)人士認(rèn)為,采標(biāo)市場(chǎng)將進(jìn)入戰(zhàn)國(guó)爭(zhēng)霸期。實(shí)力強(qiáng)大的第二梯隊(duì)之間不可避免地面臨著一場(chǎng)混戰(zhàn)。數(shù)據(jù)采標(biāo)市場(chǎng)開始趨于統(tǒng)一。第一梯隊(duì)注定不會(huì)成為爭(zhēng)霸期的主角。因?yàn)樾袠I(yè)競(jìng)爭(zhēng)等方面的考量,采標(biāo)需求方不會(huì)將數(shù)據(jù)交給百度、京東的眾包平臺(tái)來做。做人力資源外包的上市公司會(huì)在下半場(chǎng)拿到一定比例的市場(chǎng)份額,會(huì)對(duì)五家標(biāo)采公司造成一定的威脅,但該威脅不大。
下半場(chǎng),第二梯隊(duì)將如何競(jìng)爭(zhēng)?通過與第二梯隊(duì)中的三家公司深入交流,黑智發(fā)現(xiàn)它們對(duì)未來和競(jìng)爭(zhēng)理解各異,布局也不盡相同。這些差異在它們誕生的那一刻起,便被注定。
01 做輕還是做重?
在回答“做輕還是做重”這個(gè)問題上,龍貓數(shù)據(jù)、Testin云測(cè)、倍賽 BasicFinder給出了不同的答案。Testin云測(cè)、倍賽 BasicFinder都建有自己的標(biāo)注團(tuán)隊(duì),而龍貓數(shù)據(jù)則堅(jiān)持用眾包的形式來做標(biāo)注。
不同選擇的背后,是各家不同的基因。Testin云測(cè)成立于2011年,以App兼容性測(cè)試作為切入點(diǎn),進(jìn)入企業(yè)服務(wù),后衍生出功能測(cè)試、自動(dòng)化測(cè)試、安全測(cè)試、性能測(cè)試等服務(wù),成為一站式測(cè)試平臺(tái)。2017年,Testin云測(cè)積累了大量客戶。一些AI公司找到云測(cè),希望通過云測(cè)的眾測(cè)平臺(tái)做數(shù)據(jù)采集。這是Testin云測(cè)采標(biāo)業(yè)務(wù)的起點(diǎn)。
Testin云測(cè)的采標(biāo)業(yè)務(wù)做得很重,比如除了眾包采集外,它還會(huì)做定制化場(chǎng)景采集,甚至和橫店影視基地合作,利用橫店群演資源,搭建專屬場(chǎng)景,完成客戶的定制化場(chǎng)景采集。在標(biāo)注方面,Testin云測(cè)又自建標(biāo)注基地,與房山市政府合作用于數(shù)據(jù)標(biāo)注。賈宇航表示,Testin云測(cè)所做的一切都是為了客戶需求,“通過工具研發(fā)驅(qū)動(dòng)保障標(biāo)注的效率、精度,以及安全性。并通過項(xiàng)目管理、風(fēng)控管理等方式,確保標(biāo)注精度達(dá)到客戶標(biāo)準(zhǔn),以滿足客戶對(duì)于準(zhǔn)確度的要求。”
從倍賽BasicFinder的產(chǎn)品基因上來看,倍賽的工具偏向于團(tuán)隊(duì)模式的管理工具,而不是眾包模式。2018年12月,倍賽并購(gòu)了欣博友,前面提到欣博友是一家運(yùn)營(yíng)了30年的北京數(shù)據(jù)處理公司。該公司提需求,倍賽做技術(shù)支持。“我們迭代了很多次,每個(gè)工具、快捷鍵、每個(gè)設(shè)置的優(yōu)化,都是我們?cè)跀?shù)據(jù)生產(chǎn)中磨合起來的。倍賽接業(yè)務(wù)比別的公司都晚,2016年基本沒接業(yè)務(wù),2017年才開始接。我們的工具做得很扎實(shí)。”
除了欣博友,倍賽BasicFinder一直在積極拓展產(chǎn)能,杜霖說,目前,倍賽BasicFinder又拓展了將近3000多個(gè)人的子工廠。“通過拓展自有產(chǎn)能,實(shí)現(xiàn)最專業(yè)的服務(wù)。”2018年9月,倍賽BasicFinder收購(gòu)丁火智能100%股權(quán)。丁火智能旗下“薈萃APP”已積累數(shù)十萬(wàn)活躍眾包用戶。“我們搭建了一套自主采集系統(tǒng),再搭配薈萃APP實(shí)現(xiàn)數(shù)據(jù)采集,完成更多樣性的任務(wù)。”
和Testin云測(cè)、倍賽BasicFinder不同,龍貓數(shù)據(jù)沒有自己的標(biāo)注團(tuán)隊(duì),工具偏向眾包模式。昝智和聯(lián)創(chuàng),出身于互聯(lián)網(wǎng)公司,他們更希望用互聯(lián)網(wǎng)平臺(tái)化的方式去做采標(biāo),而不是“做一個(gè)純的數(shù)據(jù)工廠”。昝智既往經(jīng)驗(yàn)告訴他,應(yīng)該讓系統(tǒng)做這些復(fù)雜的數(shù)據(jù)處理,而不是靠人對(duì)人的管理。因?yàn)槿藢?duì)人的管理非常低效。
據(jù)昝智介紹,龍貓數(shù)據(jù)是較早使用眾包模式做數(shù)據(jù)采標(biāo)的,“我們用眾包把事情做成了,很多跟進(jìn)者也開始用眾包去做。”昝智認(rèn)為,龍貓數(shù)據(jù)打造出了“倚天劍”。他不覺得學(xué)龍貓數(shù)據(jù)的人能夠做好眾包,“早進(jìn)入這個(gè)行業(yè)的玩家,有一把寶刀,他們用這把寶刀獲得了利益,然后看到別人拿了倚天劍獲得了更大利益,為了造倚天劍,他不可能把寶刀丟了。刀丟了,他們可能啥都沒了。但不丟刀,他們又很難造出倚天劍。因?yàn)槿说木κ怯邢薜模季S是局限的,他們不可能一邊把精力放在寶刀上,又一邊造倚天劍,而且造倚天劍還比我們?cè)斓煤茫@不科學(xué)。”
昝智認(rèn)為,龍貓數(shù)據(jù)沒有寶刀,“接到客戶需求,我們只能優(yōu)化系統(tǒng),才能保證準(zhǔn)確產(chǎn)出數(shù)據(jù)。對(duì)于他們來說,接到客戶需求,他們還有退一步的路可以走,那就當(dāng)場(chǎng)監(jiān)督大家認(rèn)真去干。他們是有退路的,我們也沒有退路,我們必須把它搞定。有退路的時(shí)候,人一急了,就容易選退路了。”據(jù)了解,目前,龍貓眾包平臺(tái)有400多萬(wàn)用戶,其中只有一千多是做標(biāo)注的。龍貓數(shù)據(jù)的標(biāo)注業(yè)務(wù)主要由一千多個(gè)渠道商團(tuán)隊(duì)承擔(dān)。
02 建模還是不建模?
賈宇航提到數(shù)據(jù)標(biāo)注的產(chǎn)業(yè)鏈可分為三個(gè)部分:人員、工具以及算法。而Testin云測(cè)堅(jiān)持做好人員+工具,不做算法。“數(shù)據(jù)具有可復(fù)制性這一特點(diǎn),如果采集標(biāo)注公司會(huì)算法,這有點(diǎn)像一個(gè)算法公司找另一個(gè)算法公司做標(biāo)注,這一份數(shù)據(jù)到底是否用于乙方的提升,這中間存在一定的爭(zhēng)議。”“我們是在數(shù)據(jù)領(lǐng)域服務(wù)的企業(yè),而不是賣算法的公司。我們只負(fù)責(zé)完成企業(yè)的數(shù)據(jù)采標(biāo)需求就可以了,完成了交付,我們將徹底清除客戶數(shù)據(jù)。”
杜霖或許不會(huì)同意賈宇航的觀點(diǎn),因?yàn)楸顿?BasicFinder正在打造一款傻瓜式建模系統(tǒng)——用戶只需要輸入數(shù)據(jù),便可以得到一個(gè)AI模型。“如果客戶想成立AI部門,只需要部署上倍賽的系統(tǒng)上,然后再找兩三個(gè)AI工程師調(diào)參,就可以自己出模型了。如此,標(biāo)注、采集、建模就會(huì)變成一個(gè)大閉環(huán)了,因?yàn)榭蛻舳畼I(yè)務(wù),他知道業(yè)務(wù)數(shù)據(jù)應(yīng)該是什么樣子。”杜霖說。
現(xiàn)在,倍賽BasicFinder避免直接建模,杜霖強(qiáng)調(diào),“我們將我們自主研發(fā)的私有化標(biāo)注系統(tǒng)及主流的深度學(xué)習(xí)框架,統(tǒng)一封裝進(jìn)倍賽的AI基礎(chǔ)系統(tǒng)BasicAI,實(shí)現(xiàn)AI數(shù)據(jù)及模型的整個(gè)生命周期管理。倍賽不建模,我們只給客戶提供一套底層工具,讓客戶自己去建模。”杜霖解釋說,“Tensorflow、Keras及Pytorch這些深度學(xué)習(xí)庫(kù)的出現(xiàn),讓建模沒有門檻,未來甚至高中生都能夠建模。”
如果一個(gè)汽車公司讓倍賽BasicFinder幫忙做一個(gè)自動(dòng)駕駛系統(tǒng),杜霖表示做不了。但他也說,“我們的BasicAI實(shí)現(xiàn)從標(biāo)注到建模的高效流程管理。客戶在倍賽標(biāo)數(shù)據(jù),數(shù)據(jù)流到建模平臺(tái),客戶在Tensorflow里調(diào)點(diǎn)參數(shù),模型就出來了。” 今年,倍賽將推出3.0新版本,同時(shí)提供SaaS化標(biāo)注工具服務(wù),幫助客戶實(shí)現(xiàn)數(shù)據(jù)標(biāo)注管理。杜霖提到,為團(tuán)隊(duì)打造的采標(biāo)及建模流程化工具,可以提高倍賽的業(yè)務(wù)延展性,提高競(jìng)爭(zhēng)中的優(yōu)勢(shì)。
選擇無(wú)優(yōu)劣,但市場(chǎng)會(huì)給所有選擇一個(gè)清晰的答案。而戰(zhàn)國(guó)混戰(zhàn),或在接下來的幾年見分曉。不過,客戶并不希望一家獨(dú)大,大樹之下,寸草不生的局面。未來,數(shù)強(qiáng)并立的局面或?qū)㈤L(zhǎng)期存在。
走向終局
一個(gè)場(chǎng)景,一個(gè)市場(chǎng),一個(gè)產(chǎn)業(yè),一個(gè)江湖。
熙熙攘攘被裹挾著進(jìn)場(chǎng)的人,有的主動(dòng)選擇,有的則是被動(dòng),但一旦進(jìn)入,市場(chǎng)和資本的邏輯發(fā)揮作用,他們你我都變成生產(chǎn)鏈上的生產(chǎn)要素,被挑選,被進(jìn)步,亦或被淘汰。
各個(gè)產(chǎn)業(yè)參與者的位置,從誕生起或已被注定。從產(chǎn)生的那一刻起,它按著既有邏輯在走,從不以個(gè)人意志轉(zhuǎn)移。上半場(chǎng),草根英雄輩出,拼價(jià)格,下半場(chǎng)拼品牌、服務(wù)與效率。精英開始清場(chǎng),草根離場(chǎng)或者重新站隊(duì)。而資本,加速整個(gè)產(chǎn)業(yè)迭代。
現(xiàn)在,下半場(chǎng)剛開啟,談終局似乎有些為時(shí)過早。有太多的不確定將在接下來幾年的競(jìng)爭(zhēng)中,變得確定。但更多的不確定性,可能又會(huì)出現(xiàn)。城頭變幻大王旗,只在一瞬之間。
黑智認(rèn)為接下來幾年,不確定性雖是主流,但仍有幾件事是確定的:
1. 下半場(chǎng)仍將是性價(jià)比之爭(zhēng)。客戶永遠(yuǎn)希望用最小的成本獲得更高質(zhì)量的數(shù)據(jù)。為了生存和在競(jìng)爭(zhēng)中脫穎而出,供給側(cè)不得不迎合性價(jià)比需求,他們不得不通過技術(shù)來獲得降價(jià)空間和利潤(rùn)空間。賈宇航覺得,技術(shù)永遠(yuǎn)是最重要的。“通過技術(shù)的方式倒逼自己不要賺太多錢。如此,價(jià)格才能降下來,競(jìng)爭(zhēng)力則提了上去。”
2. 不要忽視傳統(tǒng)公司的AI需求。毫無(wú)疑問,接下來幾年,傳統(tǒng)企業(yè)的AI需求將會(huì)出現(xiàn)井噴,如何抓住他們,并服務(wù)好他們,這是所有采標(biāo)公司亟需思考的。當(dāng)然,也不能忽視AI行業(yè)的新數(shù)據(jù),比如3D的激光雷達(dá)以及心跳數(shù)據(jù)等。
3. 不能忽視商務(wù)能力。不強(qiáng)的商務(wù)能力,或?qū)⒊蔀椴蓸?biāo)公司的新短板。現(xiàn)階段,它們的產(chǎn)品和商業(yè)模式已基本經(jīng)過市場(chǎng)的驗(yàn)證。他們需要通過放大商務(wù)杠桿擴(kuò)大產(chǎn)品的覆蓋范圍。
4. 建立第二條增長(zhǎng)曲線。接下來幾年,有人離開,有人留下。每個(gè)人都有所歸屬,在產(chǎn)業(yè)鏈上,支配或者被支配。所有留下的公司都應(yīng)該尋找第二條增長(zhǎng)曲線,如此才能突破現(xiàn)有成本收益的限制。另外,張三的夢(mèng)仍需要做,仍需要努力實(shí)現(xiàn)。夢(mèng)想總是要有的,萬(wàn)一實(shí)現(xiàn)了呢。
評(píng)論