女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

構(gòu)建機器學習項目檔案

大小:0.5 MB 人氣: 2017-10-09 需要積分:1

  原文:Building a data science portfolio: Machine learning project

  作者:Vik Paruchuri,開發(fā)者,數(shù)據(jù)科學家,Dataquest.io創(chuàng)始人

  翻譯:Alvin 校審:KK4SBB

  責編:周建丁([email protected]

  下文僅是一系列關于如何建立數(shù)據(jù)科學檔案(Data Science Portfolio)的文章的一部分。如果你喜歡此篇文章,并且想得到該系列最新的連載文章,可以在頁面的底部選擇訂閱。

  大數(shù)據(jù)企業(yè)在評估新員工的時候會越來越重視他們的檔案。原因之一就是檔案是判斷某人在現(xiàn)實世界的技能的最佳方式。但好的消息是此檔案完全在你的的掌控范圍內(nèi),如果你做了一定的工作,你將得到一份企業(yè)青睞的好檔案。

  建立優(yōu)質(zhì)數(shù)據(jù)檔案的第一步是確定需要展示哪些技能。如下是企業(yè)想在你的數(shù)據(jù)檔案里看到的一些基本技能:

  溝通的能力。與他人合作的能力。技術的程度。解釋能力的相關數(shù)據(jù)。動力和主觀能動性。

  任何一個優(yōu)秀的檔案是由多個項目組成,每個項目至少包括上述的一到兩點。此文是一系列關于如何建立數(shù)據(jù)科學檔案的文章的一部分。在文章中將會講述到如何在你的數(shù)據(jù)檔案中添加第二個項目,而且將會闡述如何構(gòu)建一個端對端的機器學習項目。在文章最后,你將會擁有一個通過數(shù)據(jù)展現(xiàn)你的水平和技術能力的項目。如果你感興趣一定不能錯過此篇文章。

  端對端的項目

  作為一個數(shù)據(jù)科學的科學家,有時候你會被要求得出一個數(shù)據(jù)集并且要描述他。在這種情況下,良好的交流過程和連貫的思路變得很重要。比如一些工具例如“Jupyter 記事本”(Jupyter notebook),這個工具在我們這之前的文章中使用過,對我們的幫助很大。這里想說的是,我們期待的成果是一個能總結(jié)你的發(fā)現(xiàn)成果的演示或者文檔。

  然而有些時候,你會被要求創(chuàng)建一個具有操作價值的項目。這個具有操作價值的項目直接影響公司的日常運作,并且使用的時間和操作的人數(shù)都會很大。這樣的任務可能是用來“創(chuàng)建一個算法來預測我們的客戶的流失率”或者“創(chuàng)建一個可以自動標識我們的文章的模型”。在這只能過情況下,敘述故事跟技術能力相比,就顯得不是那么重要了。你需要構(gòu)建并且了解一個數(shù)據(jù)集,然后創(chuàng)建一組可以處理數(shù)據(jù)的腳本程序。重要的是這些腳本運行要很快并且盡可能少的使用例如內(nèi)存的系統(tǒng)資源。常見的是這些腳本程序?qū)⑦\行不止一次,所以需要交付的是實實在在的程序代碼而不是一個流程演示。同時這些交付項目往往是需要納入業(yè)務流程的范疇,甚至可能是面向用戶的。

  構(gòu)建端對端項目的主要要素如下:

  理解上下文。研究數(shù)據(jù)并找出其中細微的差別。創(chuàng)建一個結(jié)構(gòu)良好的項目,所以此項目才能輕松地集成到操作流程里。編寫高性能的,運行速度快的,并使用最少系統(tǒng)資源的代碼。記錄你的程序安裝和使用情況,好的記錄會反應你的代碼質(zhì)量的好壞,從而方便代碼的復用。

  為了有效創(chuàng)建這種類型的項目,我們需要操作多個文件。使用文本編輯器比如Atom,或者集成開發(fā)環(huán)境比如強烈推薦PyCharm。這些工具可以方便你在文件之間切換并且編輯不同類型的文件,比如markdown文件,Python文件,csv文件等等。還有構(gòu)建你的項目,所以版本控制變得非常容易操作,同時可以上傳到可協(xié)作編碼工具例如Github。

  構(gòu)建機器學習項目檔案

  這個項目的Github頁面

  在這篇文章中,我們將使用我們的編輯工具,比如Pandas和scikit-learn。我們將廣泛的利用Pandas的數(shù)據(jù)框,它可以很容易地閱讀和操作Python上的數(shù)據(jù)表格。

  尋找優(yōu)秀的數(shù)據(jù)集

  一個好的端對端數(shù)據(jù)集項目是很難找到。這就要求數(shù)據(jù)量需要足夠的大,這樣才能使得存儲器和系統(tǒng)性能發(fā)揮作用。它還可能需要在操作上非常有用,例如,在這個數(shù)據(jù)集中包含錄取標準,畢業(yè)率數(shù)據(jù),并且畢業(yè)后的未來收益對于一個美國大學都是將是一個值得稱贊的巨大數(shù)據(jù)檔案。但是,當你在考慮這個數(shù)據(jù)集時,你會清楚地發(fā)現(xiàn)它沒有足夠的差別以建立一個良好的端對端項目。例如,你可以告訴別人他的潛在的未來收益,如果他們?nèi)チ艘粋€特殊的大學,但是這將沒有足夠的差別來快速表明其技術水平。你也可以判別是否具有較高入學標準的院校會擁有更多薪資的畢業(yè)生,這將比運營更具有故事性。

  當你擁有比千兆字節(jié)還要多的數(shù)據(jù)時,這些內(nèi)存和性能的限制往往會發(fā)揮作用,同時當你需要預測一些事情的時候,其中涉及的運行算法是要超過數(shù)據(jù)集本身的。

  良好的操作數(shù)據(jù)使你能夠創(chuàng)建一組轉(zhuǎn)換數(shù)據(jù)的腳本程序,并且即時地回答問題。一個很好的例子就是關于股票價格的數(shù)據(jù)集。你將能夠預測第二天的價格,并將最新的數(shù)據(jù)反饋給后臺作為交易的結(jié)果。這將有利于你進行交易甚至可能從中盈利。這不僅僅是講述一個故事,而是從中獲利。

  這里有一些能夠找到這樣的數(shù)據(jù)集的好地方:

  /r/datasets,一個擁有數(shù)百個有趣的數(shù)據(jù)集的版塊。Google Public Datasets,可以通過谷歌的BigQuery得到的公共數(shù)據(jù)集。Awesome datasets,一個托管在Github上的數(shù)據(jù)集列表。

  在查看這些數(shù)據(jù)集的時候,想想有人會問到跟此數(shù)據(jù)集相關的問題,并且如果這些問題都是一次性的(“住房價格和標準普爾500指數(shù)有什么關聯(lián)?”)或者是(“你能預測股市嗎?”)。這里的關鍵是找到正在進行的,并需要相同的代碼在多次運行的問題中輸入不同的數(shù)據(jù)。

  對于這篇文章的目的而言,我們將看看Fannie Mae貸款數(shù)據(jù),F(xiàn)annie Mae是美國政府贊助的企業(yè),用來從其他貸款人手中購買按揭貸款。然后,它捆綁了這些貸款作為抵押貸款放入證券和轉(zhuǎn)售他人。這使得貸款人有更多的按揭貸款,并且在市場上創(chuàng)造更多的流動性。這在理論上會產(chǎn)生更多的購房交易和更好地貸款條件。雖然從借款人的角度來看,事情保持大致相同。

  Fannie Mae發(fā)布了兩種類型的數(shù)據(jù),一種是獲得貸款的數(shù)據(jù)另一種是貸款表現(xiàn)的數(shù)據(jù)。在理想情況下,有人從貸款人借錢,然后償還貸款,直到余額為零。然而,一些借貸人錯過了多次付款的機會,這可能會導致他們喪失抵押品的贖回權(quán)。當?shù)盅浩返内H回權(quán)喪失的時候,房子就會被銀行沒收,因為他們無法按時還款。Fannie Mae錯過了對支付貸款的跟蹤和哪些貸款被取消了贖回權(quán)。此數(shù)據(jù)每季度出版一次,并且落后當前數(shù)據(jù)一年,在撰寫本文時所用的最新的數(shù)據(jù)集止于2015年第一季度。

  這些由Fannie Mae出版的采集數(shù)據(jù),包含借貸人的信息,比如,信用分數(shù),貸款和家庭的信息,收入信息。當貸款放出后,每季度公布這些信息,包括借款人的取消抵押品贖回權(quán)的狀態(tài)和任何的支付信息。這些貸款可能會包含十幾行的情況數(shù)據(jù)。好消息是這些收獲的數(shù)據(jù)告訴你Fannie Mae 目前正在控制貸款,并且這些數(shù)據(jù)包含了一系列貸款狀態(tài)的最新信息。其中一個最新的狀態(tài)可能告訴我們貸款在一些季度會取消抵押品贖回權(quán)。

  

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關規(guī)定!

      ?