女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)科學能力是否能夠靠培訓課程培養(yǎng)?

電子工程師 ? 來源:lq ? 2019-01-15 16:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

數(shù)據(jù)科學能力是否能夠靠培訓課程培養(yǎng)?這一話題正在近期被火熱討論。

資深數(shù)據(jù)從業(yè)者、Taxify(一家歐洲打車軟件公司)數(shù)據(jù)科學家Maksim Butsenko就這一問題采訪了數(shù)百人,并得到一個結論,即使是那些具有強大技術背景的人,也往往缺乏一些基本技能。

在本文中,我們將討論,那些你在機器學習課程中學不到的東西。

定義數(shù)據(jù)科學家的角色

科技行業(yè)已經(jīng)或多或少懂得如何讓工程師和業(yè)務人員一起工作。我們有多種產(chǎn)品開發(fā)方法可供選擇——你的團隊自行設置Scrum(敏捷軟件開發(fā)的框架),Kanban(看板管理)或XP(極限編程)工作流程。

人們知道如何將這些方法融入組織中,你也可以找到許多關于如何高效應用這些方法的建議。然而,大多數(shù)人沒能理解數(shù)據(jù)科學家應如何融入這一場景。他們算是那一部分-技術人員還是業(yè)務人員?你是放手讓他們發(fā)現(xiàn)未知的見解?還是要求他們回答一個非常具體的問題或者改善你業(yè)務中的一個具體領域?

Asko Seeba非常清楚地解釋了企業(yè)如何看待數(shù)據(jù)科學項目的過程,并認為它主要就是一個研究項目。考慮到即使是業(yè)內(nèi)人士仍然試圖理解如何以最高效的方式利用數(shù)據(jù)科學家的專業(yè)知識,那么新加入者怎么知道他們應該關注哪些技能?

建立團隊

一年前,我們開始在Taxify建立一個頂級數(shù)據(jù)科學團隊??紤]到我們的快速增長(去年Taxify乘客數(shù)量增長了十倍,我們?yōu)槿虺^1500萬名乘客和500,000名駕駛員提供服務)以及運輸領域數(shù)據(jù)相關的挑戰(zhàn)數(shù)量,只雇用少數(shù)優(yōu)秀的數(shù)據(jù)科學家是不夠的。我們正在考慮在明年為我們的團隊增加幾十位數(shù)據(jù)科學家。

但我們究竟要找誰?數(shù)據(jù)科學中嚴格意義上的學位課程剛剛興起,行業(yè)本身尚未完全確定如何定義數(shù)據(jù)科學家的完美簡歷。

事實上,數(shù)據(jù)科學家?guī)炷壳坝删哂胁煌尘暗膫€人組成。我們的團隊中有人擁有計算機科學和人工智能的背景,但也有來自信號處理,計量經(jīng)濟學,化學,復雜系統(tǒng),社會學等領域的人。

我們的共同點是通常對科學方法和實驗設計的良好理解。獲得技術技能要簡單得多。但是,由于我們來自各個領域,因此我們對提供基于數(shù)據(jù)的產(chǎn)品的流程的理解可能會有所不同。需要花費一些精力來整合所有這些經(jīng)驗并提供強大的團隊成果,這就是我們?nèi)绾翁幚磉@個問題的辦法。

數(shù)據(jù)科學卓越計劃

我們啟動了一項內(nèi)部計劃,旨在為團隊發(fā)布專注于直接產(chǎn)品影響的自動預測鋪平道路。我們稱之為“數(shù)據(jù)科學卓越計劃”,它的目的是收集我們已經(jīng)建立的團隊和我們正在努力實現(xiàn)的最佳實踐并應用之。

它有助于新團隊成員簡化模型開發(fā)過程并避免常見陷阱,這樣我們就可以更快地前進。在我們能夠產(chǎn)生有價值的東西之前,不必檢查本指南中的每一條,但是大多數(shù)要點都是為了確保結果的質(zhì)量,并避免代價高昂的錯誤。

我在這里談論我們的數(shù)據(jù)科學卓越指南的原因是:它給出了對發(fā)布數(shù)據(jù)產(chǎn)品的要領的深刻理解。雖然大部分內(nèi)容對于經(jīng)驗豐富的數(shù)據(jù)科學家來說都是不言而喻的,但你無法從機器學習(ML)課程或書籍中了解它,因此這對于任何剛畢業(yè)或從其他領域轉移到數(shù)據(jù)科學的人都很有用。

通過進行面試和審查測試任務,我們經(jīng)??吹皆S多具有很強的技術技能和對ML充分了解的初學者沒能提出正確的問題或者也不知道如何在現(xiàn)場測試他們的模型。這時候我們的數(shù)據(jù)科學卓越指南就可以為他們提供幫助。

問題陳述

首先定義你要解決的問題。

如果可能的話用數(shù)學符號描述它(不需要太嚴格,但有助于確保定義是正確的)。通過定義問題,我們可以開始概述解決方案的可能方法。這是一個迭代過程,回到問題陳述并驗證——我們問了自己正確的問題嗎?我們可以對市場上已有且可重用的解決方案進行文獻探討和研究,重點在于它們對我們的問題的作用。

目標和指標

根據(jù)項目的目標,提出可以標示目標達到的指標。

在開始研究原型之前,先問問自己:

你的模型對于產(chǎn)品和其使用人員有多少實際價值?

有什么影響?它會影響10%的用戶群還是40%?

你如何計劃在產(chǎn)品級別上衡量模型的效率?

收集和衡量你可以想到的所有KPI和指標是一種很好的做法。主要目標的積極影響可能會對其他領域產(chǎn)生負面影響。

時間規(guī)劃

探索數(shù)據(jù),嘗試不同的特征工程和構建模型的方法是一項持久戰(zhàn)?;ㄙM大量時間在這上面也可能會讓你在Kaggle比賽中獲得巨大的勝利。然而,在快速發(fā)展的公司中仍有許多與數(shù)據(jù)相關的挑戰(zhàn)等待解決。

例如,預測駕駛員到達乘客打車地點的時間(預計到達時間- ETA)是我們服務的關鍵要素。我們發(fā)布了成功的預測模型,與現(xiàn)有解決方案相比,平均絕對預測誤差得到了顯著改善,在這之后我們還得問自己繼續(xù)努力將誤差進一步減少或者多次迭代是否還值得。我們知道這將需要大量的工作,并且無法預先估計可能的改進量。

考慮到這一點,無論是在進行探索性分析還是優(yōu)化現(xiàn)有模型方面,我們都致力于為我們的工作限定時間。我們?yōu)樘囟ㄈ蝿赵O置了有限的時間,并嘗試在此時間段內(nèi)提供結果,即使這意味著放棄最可用的模型或省略一些有趣的功能設計創(chuàng)意。時間限定在構思階段也很有用,例如,為了評估可能的工作區(qū)域,我們每天對一個想法以快速雙人編程馬拉松的模式來弄明白其可能的結果,我們能夠多快生成可部署的模型以及它對項目最初基線的改善程度。

工具

只有當數(shù)據(jù)科學家獨自工作時才不需要考慮代碼的可重用性。你可以以最快最喜歡的方式得到想要的結果。但團隊合作需要考慮到如何使整個團隊前進的更快一點,即便這意味著增加了個人的工作量。

例如,將包含地理信息的熱圖進行比較的方法可能在他人的分析中也用得上,那么花一些時間對函數(shù)進行整理概括并將其作為內(nèi)部數(shù)據(jù)堆棧庫的一部分就是有意義的,這有助于提升團隊整體的速度。并且以可讀且易于重用的方式所構建的代碼或使用手冊將有益于所有人。

總的來說,我們的目標是為數(shù)據(jù)科學家和工程師提供最好的工具。構建必需的核心部分,其他的能買則買。

代碼檢查

代碼檢查是軟件開發(fā)標準流程的基礎環(huán)節(jié)。但對于許多數(shù)據(jù)科學家來說就不那么受用了,部分原因在于他們中的許多人并沒有計算機科學的相關學位,并且不太理解軟件的最佳規(guī)范。這就是為什么檢查機器學習代碼如此重要,尤其是將要轉化為產(chǎn)品的代碼。同時需要注意的是,檢查為建立模型而做出的假設也是不可或缺的一個環(huán)節(jié)。

例如,在與我們的領域相關的任務中,你可能想要討論諸如“如何定義客戶需求?”、“為什么缺失的乘車價格字段被平均價格代替?”等問題。這意味著軟件開發(fā)人員沒有充分了解數(shù)據(jù)科學的過程,就無法評估代碼的整體功能,也不會留意到(數(shù)據(jù)模型相關的)假設的錯誤。

因此,需要將代碼檢查分為兩個階段(軟件/模型)或者啟用同時具備兩個領域相關知識的人才。代碼審查也是提升團隊內(nèi)部知識共享的一種有效方法,特別是當團隊成員分散在各自的項目上時。

AB檢驗

當模型準備好了,并且誤差在合理范圍內(nèi),經(jīng)過代碼審查并準備就緒,你希望它能夠對業(yè)務產(chǎn)生積極影響。那么你怎樣實際驗證模型是否具有預期的作用呢?實際上的數(shù)據(jù)的模糊性和不確定性,成為我們工作中的難點之一。我們是全世界發(fā)展最快的行業(yè),同時也擁有最復雜的市場和眾多競爭對手。我們獲得的數(shù)據(jù)不僅取決于自身,還受到城市社會活動和競爭對手的促銷等因素的影響。

考慮到這一點,AB檢驗則是可以可靠地(如果使用得當)測量特征影響的工具。在這里,AB檢驗意為實驗設置隨機分配到對照組和實驗組。然而,有些實驗立刻會對整個城市產(chǎn)生影響,(例如改進調(diào)度算法),此時AB檢驗便不能有效進行。對于這類情況,我們的模擬引擎能夠很好地掌控。同時運行多個實驗則是另一個要考慮的復雜因素。

解決方案是構建一個復雜的AB檢驗引擎來跟蹤所有實驗,處理實驗和對照組中的隨機分配,收集觀察統(tǒng)計數(shù)據(jù),并計算出相應的p值。然而,即使是最復雜的引擎也無法解決在實際測試設置中產(chǎn)生的誤差。因此,必須在公司內(nèi)部共享最佳規(guī)范。

可見度和團隊溝通

團隊越壯大,越要保證所有事情都得到溝通,各方的意見都要照顧到,所有的成員都知道別人在做什么。

基于各種原因,溝通可見性十分重要:

每個人都應該清楚團隊里的其他人在做什么,并且知道該找誰尋求建議或合作

多人做同一個任務時要減少“重復工作”的可能性

共享你知道的信息(對于非技術領域相關的模型尤為重要,運營團隊可能會有更多專業(yè)知識)

雖然聽起來有些反直覺,但溝通的可見性減少了對相同事件的重復解釋及溝通誤解。

持續(xù)的跟蹤和多渠道分享進度也是非常重要的,因此我們明確定義了分享工作成果的一些好方法:

Slack:項目狀態(tài)在相應渠道的定期更新。

每周和每月例會:與團隊和干系人討論并確定工作優(yōu)先級。時時刻刻地進行優(yōu)先級再評估,因為每周一次太慢了。

研究筆記:數(shù)據(jù)科學家跟蹤項目狀態(tài)主要是為了自己,比如重大發(fā)現(xiàn)和計劃。 研究筆記是收集主要發(fā)現(xiàn)的好方法,以便日后通過其他途徑,幻燈片或會議來分享。

當談到團隊的溝通時,少絕對不比多好。 過度分享通常不是一個大問題,但是分享不足會嚴重阻礙團隊的進步。

講故事的能力

講故事的能力對于在團隊中工作的數(shù)據(jù)科學家來說,和掌握過度擬合,或者知道應該選擇卡方檢驗還是t檢驗一樣重要。這包含了向負責人表達和展示成果的能力。你不應該花五分鐘來解釋圖表上的內(nèi)容及其重要性。

你想說的大部分內(nèi)容應該很直白地展現(xiàn)在圖表里,并通過選擇圖形,顏色,圖例,軸標簽來傳達信息。

總結

一個影響深遠的數(shù)據(jù)科學項目遠遠不止一個工作模型那么簡單。特別是當我們要構建一個影響全球幾百萬人日常生活的的產(chǎn)品時,需要一支具備各行業(yè)專業(yè)知識的團隊。

在Taxify,我們通過創(chuàng)建數(shù)據(jù)科學卓越計劃,使這一過程更加透明,統(tǒng)一和高效-它有助于我們圍繞最佳規(guī)范開展工作。同時,與新加入的數(shù)據(jù)科學團隊成員分享最佳規(guī)范對公司和新人都是有益的。 最后,我們希望這些規(guī)范能夠幫助任何人開始他們的數(shù)據(jù)科學之旅。

關于作者

Maksim Butsenko是Taxify的數(shù)據(jù)科學家。 他的主要職責包括構建數(shù)據(jù)和機器學習產(chǎn)品,以確保公司的可持續(xù)發(fā)展,并且?guī)椭占屯茝V團隊和公司內(nèi)部的最佳數(shù)據(jù)科學規(guī)范。Maksim是從學術界轉行過來的,他有統(tǒng)計信號處理的研究背景。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1806

    文章

    49011

    瀏覽量

    249348
  • 機器學習
    +關注

    關注

    66

    文章

    8502

    瀏覽量

    134589
  • 數(shù)據(jù)科學

    關注

    0

    文章

    168

    瀏覽量

    10485

原文標題:機器學習課程沒有教你的事

文章出處:【微信號:BigDataDigest,微信公眾號:大數(shù)據(jù)文摘】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AK-BT2 的 SOURCE 或 SINK 程序是否能夠控制對等設備的射頻功率?

    如何查看日志。 我試著實驗性地輸出日志,但我不知道發(fā)生了什么,因為它只是一堆數(shù)字。 2) AK-BT2 的 SOURCE 或 SINK 程序是否能夠控制對等設備的射頻功率? 同樣,請告訴我評估板的 Watch 程序和 SINK 程序是否具有控制對等設備射頻功率的功能。
    發(fā)表于 07-03 07:26

    CYW20829是否能夠同時通過BT/BLE連接最多3臺設備?

    只是想知道CYW20829 是否能夠同時通過 BT/BLE 連接最多 3 臺設備? 或者是否有其他 BT/BLE SoC 能夠同時無線支持最多 3 臺設備?
    發(fā)表于 06-30 06:45

    超聲波清洗機是否能夠清洗特殊材料或器件?

    超聲波清洗機是否能夠清洗特殊材料或器件超聲波清洗機作為一種先進的清洗技術,在許多應用領域都表現(xiàn)出色,但是否能夠清洗特殊材料或器件是一個常見的問題。本文將深入探討超聲波清洗機在處理特殊材料或器件
    的頭像 發(fā)表于 06-19 16:51 ?220次閱讀
    超聲波清洗機<b class='flag-5'>是否能夠</b>清洗特殊材料或器件?

    LTC3777/9是否能夠實現(xiàn)多片并聯(lián)輸出更大功率?

    LTC3777/9是電流模式的buck 芯片,請問是否能夠實現(xiàn)多片并聯(lián)輸出更大功率,或者增加如LTC6902等多路輸出振蕩器等簡單方案,實現(xiàn)并聯(lián)
    發(fā)表于 04-18 06:24

    DLPA3000是否能夠處理這種大電流的輸出呢?

    問題如題。輸出到LED的電流如下圖,導通190ms后關斷6ms,而總導通時間只有幾秒后DLPA輸出就關斷了,其上外殼的裸露盤很燙。 我該怎么處理這種情況呢? DLPA3000是否能夠處理這種大電流的輸出呢?
    發(fā)表于 02-21 08:34

    請問DLPA2005+DLPC3435切換成DLPA2000+DLPC3435,DLP的固件是否能夠兼容呢?

    DLPA2005+DLPC3435切換成DLPA2000+DLPC3435,DLP的固件是否能夠兼容呢?
    發(fā)表于 02-21 06:05

    使用多片TLV2543做AD采集時,EOC管腳是否能夠共用?

    使用多片TLV2543做AD采集時,SPI接口采用共用,EOC管腳是否能夠共用,芯片內(nèi)部的EOC管腳是推挽輸出還是OC或者OD輸出?我現(xiàn)在的設計是3片TLV2543的EOC連接到一起了,每個片子的EOC外部10K上拉,由于不知道EOC的內(nèi)部輸出方式,這樣用會不會損壞管腳或者芯片。
    發(fā)表于 12-18 07:24

    請問AMC7812b和AMC7836的SPI是否能夠兼容,驅動是否可以保持一致?

    請問AMC7812b 和 AMC7836 的SPI是否能夠兼容,驅動是否可以保持一致?
    發(fā)表于 12-06 08:42

    ads7952在一個job里面發(fā)送多條channel指令給ads,ads的通信特點是否能夠支持,其工作邏輯是怎樣的?

    ads7952在autosar架構下用spi異步通訊,dma存取數(shù)據(jù)。 在一個job里面發(fā)送多條channel指令給ads,ads的通信特點是否能夠支持,其工作邏輯是怎樣的。 或者是否有其他類似的實現(xiàn)方案。
    發(fā)表于 11-29 06:51

    AFE4900是否能夠實現(xiàn)FNIR的功能?

    AFE4900用于血壓估算的同步PPG、ECG?HRM(可穿戴設備和智能耳戴式設備)? 心率變異分析(HRV)? 脈動式血氧計(SpO2) 測量 我們想確認如下信息: 1、利用這顆芯片是否能夠實現(xiàn)
    發(fā)表于 11-20 06:14

    使用MATLAB培養(yǎng)醫(yī)療人工智能領導者和增強工程課程

    全球各地的高校都在使用 MATLAB 和 Simulink 開展教學與科研,幫助未來的工程師和科學家掌握未來世界工程項目與科學研究所要求的重要能力。讓我們一起來看看這二則案例為培養(yǎng)醫(yī)療
    的頭像 發(fā)表于 10-31 16:37 ?706次閱讀

    TAS2770是否能夠驅動直流輸出用于替代應用?

    TAS2770是否能夠驅動直流輸出用于替代應用(而不是音頻輸出)?
    發(fā)表于 10-10 08:05

    【全新課程資料】正點原子《ESP32基礎及項目實戰(zhàn)入門》培訓課程資料上線!

    綜合項目:智能感應垃圾桶項目 二、課程目的 1、熟練ESP-IDF開發(fā),突破ESP32入門難題 2、熟悉ESP32外設基礎知識,提升開發(fā)能力,克服眼高手低的問題 3、通過多個外設實戰(zhàn),掌握ESP32
    發(fā)表于 09-24 17:59

    【全新課程資料】正點原子《ESP32物聯(lián)網(wǎng)項目實戰(zhàn)》培訓課程資料上線!

    正點原子《ESP32物聯(lián)網(wǎng)項目實戰(zhàn)》全新培訓課程上線啦!正點原子工程師手把手教你學!通過多個項目實戰(zhàn),掌握ESP32物聯(lián)網(wǎng)項目的開發(fā)! 一、課程介紹本課程圍繞物聯(lián)網(wǎng)實戰(zhàn)項目展開教學,內(nèi)
    發(fā)表于 09-24 17:05

    請問PGA900是否能夠數(shù)字量輸出?

    PGA900是否能夠數(shù)字量輸出?
    發(fā)表于 08-09 08:30