女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何構建數據科學項目才能更高效?

物聯網之聲 ? 來源:未知 ? 作者:胡薇 ? 2018-09-06 09:01 ? 次閱讀

數據科學是什么?數據分析?機器學習?還是數據工程?答案可能有很多,但也許只有直接與某個公司的數據科學家交流,才能了解該公司是如何看待數據科學的。由Netflix舉辦的第三屆聚焦數據科學的WiBD研討會,為我們所有人了解Netflix的數據科學故事提供了絕佳機會,一起來看看吧!

數據科學是一個非常抽象的概念。有些人認為它是數據分析,也有一些人認為它是機器學習,還有些認為它帶有一些數據工程的味道。

業界對數據科學這一概念難以達成一致有很多原因,其中一點就是,現在大范圍內的崗位都可能涉及數據科學,并且這些崗位的職責都不盡相同。

此外,不同公司之間的細微差別,甚至是同一公司內部的不同團隊之間的細微差別都會導致對數據科學的理解不同。因此,只有直接與某個公司的數據科學家交流才能了解該公司是如何看待數據科學的。

信息不對稱是一個令人遺憾的事實,它阻礙了許多人追尋數據科學以及數據工程這一職業的道路。

如果我們投入越多的工作時間來解決這一棘手的問題,那么這一阻礙也就能越早被突破。關于這一點,推薦一個社會教育企業——HasBrain,該企業致力于填補信息缺口并且為想要學習并找到通往數據科學和數據工程道路的人提供幫助。

構建數據科學項目

頭腦風暴活動

現實世界的數據科學項目與理論上的有何不同,如何構建數據科學項目才能更高效?Becky在研討會上展示的數據科學項目體系對該問題總結得非常好。

以下是Becky的總結

步驟一:從了解業務問題開始

下面的幻燈片,是Becky就如何定義成功而列出的一系列業務問題。如果你想要很好地證明你的概念,你需要一開始要以一個簡單模型作為基準,然后從增量改善(incremental improvement)的角度來評估模型的價值。

否則,你會一直困擾于75%的準確度是否足夠好這樣的問題。擁有物理學博士學位的Becky也提到,專業學者總是會仔細檢查到最后那20%,以確保結果是無懈可擊的。所以,如果博士生們想要成為數據科學家,這一點是需要特別注意的。

步驟二:制定技術計劃

除了下面的幻燈片中列出的細節,Becky還強調了溝通的重要性,同時還提出要站在利益相關者的角度思考。因為利益相關者最關心的未必是機器學習的誤差測度,所以要學會如何將業務目標轉化為價值優化問題,這一點極為關鍵。

相較于“重新發明輪子”,弄明白和學會使用現有的技術可以為我們節省很多時間。現有的用于監督學習的技術,如預測建模或分類,都有很好的文檔記錄。

然而,在相對更先進以及更專業的機器學習領域(例如NLP和圖像分類),新文章不斷地發表,技術不斷地更新。因此,即時了解最新和最好的研究論文是數據科學家們需要牢記的黃金準則。

步驟三:對概念進行初步驗證 -> 不斷迭代/驗證直到成功或是無法再繼續 -> 向利益相關者傳達結果

如果你對工作流程甚至是數據科學家使用的工具或庫還有任何的疑問,都可以參考Becky在項目構建中對“doing the project”這部分的詳細描述。

步驟四:模型產品化

如果一些數據科學家告訴你必須要學會編寫產品級代碼,那么,他們可能需要獨立處理模型產品化,而不是交給機器學習工程師或是軟件工程師。

模型產品化本質上就是指不要在現有的模型輸出上停滯不前。你的結果輸出是產品的一部分,并且會改變用戶的實際體驗。

你的代碼也會成為更大的產品代碼庫的一部分,例如,如果你歸類用戶是否會在未來兩周內流失,被預測為會流失的用戶和被預測為不會流失的用戶可能會有不同的用戶界面(UI)。

實際上,你是為其他團隊創建了一個API來調用你的模型并獲得模型輸出。你可能需要重構你的代碼,此時,只要API沒有中斷并且終端用戶體驗是無縫的,你就可以不斷地升級模型。

Becky自學了工作中要用到的軟件工程方面的知識,學會使代碼模塊化,以實現可重復性并提高算法效率。甚至有時,可能會參與到軟件工程師或是數據工程師的團隊中。這不僅取決于工作的復雜性,還取決于服務等級協議(Service Level Agreement, SLA)。例如,如果你的API需要一直處于運行狀態,則可能需要更廣泛的代碼審查或軟件工程團隊的直接參與。

溝通與問題解決

在講述了數據科學項目的構建之后,Becky更多地談到了有效溝通和解決問題的技巧的重要性。如何向非技術人員的利益相關者們解釋復雜的數據科學概念,是獲得他們買進支持的重要環節。

Becky將她在攻讀物理學博士學位期間學會的一項技能運用于此——將復雜問題分解成小塊并逐一解決。類似地,她就將利益相關者的高階問題(high level question)進行分解,并找出數據科學項目可以提供價值的地方。

如果沒有數據科學家的工作經驗,想要勝任這部分工作是不容易的,因為包括Kaggle項目在內的大多數實踐項目都是從已經定義明確的數據科學問題開始的。Becky談到,這些軟技能其實是從經驗中獲得的,當然也可以從有效的反饋中學習。

與此同時,她也會閱讀一些基礎書籍來熟悉商業中的通用概念和術語。另外,許多其他資深的數據科學家們都建議,如果想要進一步發展自己的商業頭腦,則需要閱讀一些產品管理的書籍和文章。

實踐練習

這個項目使用WDI數據來預測業務啟動成本,非常適合初學者。如果你是機器學習新人,或是剛剛完成一些監督學習的網絡基礎課程,這將會是一個很好的額外練習機會。

現在,讓我們回到之前談論的問題解決和溝通方面,Becky就此提出了一個業務問題:“在不同的國家開展業務都有多難?”她還確立了一個項目目標,即預測在不同國家開展業務的成本。

如果這是一個實際的工作項目,對于開展業務的便利性來說,這些預測成本要如何成為整體評估決策中的一部分,我想,她可能需要與利益相關者就此問題達成一致。

最后,希望這個總結對你有幫助。祝所有數據科學愛好者們好運!并再次感謝Netflix團隊的慷慨分享!另有演示的幻燈片和錄像可供使用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8492

    瀏覽量

    134122
  • 數據科學
    +關注

    關注

    0

    文章

    168

    瀏覽量

    10409

原文標題:如何成為一名數據科學家?聽聽來自Netfix的老司機怎么說

文章出處:【微信號:szwlw26059696,微信公眾號:物聯網之聲】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    【書籍評測活動NO.61】Yocto項目實戰教程:高效定制嵌入式Linux系統

    來自其復雜的構建環境和性能要求。根據 Yocto 項目的官方說明,主要挑戰可歸納為三大類: 學習曲線與理解成本 工作流與構建環境的復雜性 初始構建時間與性能問題 為了幫助大家
    發表于 05-21 10:00

    工業數據采集網關選型全攻略:構建智能工廠的數字橋梁

    在智能制造與工業互聯網深度融合的今天,工業數據采集網關作為連接物理設備與數字世界的核心樞紐,其選型直接影響企業數字化轉型的成效。本文將從六大核心維度解析如何科學選擇適配的工業網關,助您構建穩定、
    的頭像 發表于 04-12 11:13 ?210次閱讀

    光伏電站運維系統讓太陽能發電更高效

    ?????? 光伏電站運維系統讓太陽能發電更高效 ?????? 光伏電站運維系統是一套幫助管理太陽能發電站的技術工具,它的作用是讓電站運行更穩定、發電更高效,同時減少人工維護的成本和麻煩。以下是它
    的頭像 發表于 03-28 16:22 ?311次閱讀
    光伏電站運維系統讓太陽能發電<b class='flag-5'>更高效</b>

    高效流量復制匯聚,構建自主可控的網絡安全環境

    隨著大數據監測、流量分析以及網絡安全監管等核心業務需求的日益增長,網絡環境對高性能、高可靠性的流量監控和分析提出了更高的要求。流量復制匯聚平臺憑借其卓越的技術特性和靈活的應用方案,不僅幫助用戶實現了對網絡流量的精準控制和高效處理
    的頭像 發表于 03-10 14:29 ?422次閱讀
    <b class='flag-5'>高效</b>流量復制匯聚,<b class='flag-5'>構建</b>自主可控的網絡安全環境

    JBD助力日本科學技術振興機構資助的醫用AR 眼鏡開發項目

    ? 近日,JBD宣布為日本科學技術振興機構(JST)資助的戰略創意研究推進項目CREST中的醫用AR眼鏡開發項目提供微顯示模組產品。該項目由東京科學
    發表于 02-05 17:48 ?309次閱讀
    JBD助力日本<b class='flag-5'>科學</b>技術振興機構資助的醫用AR 眼鏡開發<b class='flag-5'>項目</b>

    NVIDIA RAPIDS cuDF如何賦能AI加速數據科學

    隨著 AI 正幫助各行各業推動創新和提高效率,基于海量的高質量數據來訓練各種模型是充分發揮 AI 應用潛力的必經之路,正因如此,數據科學家們面臨著日益增長的工作負載需求,迫切需求尋找
    的頭像 發表于 01-24 09:26 ?516次閱讀

    解碼TW6501:ONFI 5.0協議如何令存儲通訊更高效

    解碼TW6501:ONFI 5.0協議如何令存儲通訊更高效
    的頭像 發表于 01-21 14:51 ?426次閱讀
    解碼TW6501:ONFI 5.0協議如何令存儲通訊<b class='flag-5'>更高效</b>

    數據要素時代下構建高效數據治理能力的策略

    數據驅動的商業時代,高效數據治理平臺已成為企業成功的核心要素。盡管市場上已有眾多成熟的數據治理產品,但許多客戶仍反映未能充分實現數據治理
    的頭像 發表于 11-01 11:19 ?624次閱讀

    使用Python構建高效的HTTP代理服務器

    構建一個高效的HTTP代理服務器在Python中涉及多個方面,包括性能優化、并發處理、協議支持(HTTP/HTTPS)、錯誤處理以及日志記錄等。
    的頭像 發表于 10-23 07:41 ?461次閱讀

    《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感

    、優化等方面的應用有了更清晰的認識。特別是書中提到的基于大數據和機器學習的能源管理系統,通過實時監測和分析能源數據,實現了能源的高效利用和智能化管理。 其次,第6章通過多個案例展示了人工智能在能源
    發表于 10-14 09:27

    AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感

    閱讀這一章后,我深感人工智能與生命科學的結合正引領著一場前所未有的科學革命,以下是我個人的讀后感: 1. 技術革新與生命科學進步 這一章詳細闡述了人工智能如何通過其強大的數據處理和分析
    發表于 10-14 09:21

    《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得

    人工智能:科學研究的加速器 第一章清晰地闡述了人工智能作為科學研究工具的強大功能。通過機器學習、深度學習等先進技術,AI能夠處理和分析海量數據,發現傳統方法難以捕捉的模式和規律。這不僅極大地提高了
    發表于 10-14 09:12

    GaN如何實現更高效、更緊湊的電源

    電子發燒友網站提供《GaN如何實現更高效、更緊湊的電源.pdf》資料免費下載
    發表于 09-12 10:00 ?0次下載
    GaN如何實現<b class='flag-5'>更高效</b>、更緊湊的電源

    如何使用PyTorch構建更高效的人工智能

    術界和工業界得到了廣泛應用。本文將深入探討如何使用PyTorch構建更高效的人工智能系統,從框架基礎、模型訓練、實戰應用等多個方面進行詳細解析。
    的頭像 發表于 07-02 13:12 ?695次閱讀

    求助,通過VScode構建的集成開發環境如何更新環境下的ESP-IDF版本?

    通過VScode構建的集成開發環境如何 更新 環境下的ESP-IDF版本? 通過VScode 構建開發環境的時候其中的esp-idf版本 也會被下載到本地.如何才能對這個版本進行更新呢.比如我現在
    發表于 06-17 06:38