知乎大神“Seu Tao”,僅用半年時間參加了5次Kaggle比賽,就拿到了5個金牌(包括一個 solo gold),順利成為了 Competitions Grandmaster。最近,他分享了比賽經驗。
又一位Kaggle大神!
Kaggle是全球首屈一指的數據科學、機器學習競賽和分享平臺,企業和研究者可以在Kaggle平臺發布數據、舉行/參加競賽,通過“眾包”的形式產生最好的模型,現在注冊用戶數量超過100萬。
在Kaggle Competitions排行榜中,有一個頭銜是眾多用戶都十分向往的,那就是“Kaggle Grandmaster”,他們是排名0.1‰的頂級高手。目前,Kaggle只有136位Grandmaster。
Grandmaster除了代表你參加過很多競賽并且多次獲得冠軍,這個頭銜在投簡歷找工作時也很具吸引力。同時,參加大企業舉辦的大型競賽,還能獲得獎金。
知乎上有一位大神“Seu Tao”,他從2018年9月份到2019年3月,僅歷時半年,共參加了 5 次 Kaggle比賽,就拿到了5 個金牌(包括一個 solo gold),順利成為了 Competitions Grandmaster!
Seu Tao告訴新智元,他17年本碩士畢業于東南大學,目前在某創業公司任職視覺算法工程師,這5次Kaggle比賽,也都是計算機視覺類的任務。最近,Seu Tao把他參賽經歷和經驗分享出來,我們一起膜拜下。
Kaggle 五次比賽成績(按名次排序)
2nd in Humpback Whale Identification (2/2131, top 1%,Solo Gold Medal)
4th in TGS Salt Identification Challenge (4/3234, top 1%,Gold Medal)
8th in Airbus Ship Detection Challenge (8/884, top 1%,Gold Medal)
9th in Human Protein Atlas Image Classification (9/2236, top 1%,Gold Medal)
12th in Google Doodle Recognition Challenge (12/1316, top 1%,Gold Medal)
SeuTao Kaggle主頁:
https://www.kaggle.com/shentao
五次比賽介紹(按時間排序,記錄下 5 次比賽的過程)
1. TGS Salt Identification Challenge(4/3234)金牌 2018.10
TGS 鹽體識別挑戰賽,挑戰者需要開發出能準確分割地表以下沉積鹽分布的算法。地震數據是通過地震反射(reflection seismology)收集的,這種方法要求能量的受控震源(如壓縮氣體或地震振動器),以及記錄來自地下巖石界面反射的傳感器。之后處理記錄的數據,創建地球內部的 3D 視圖。地震反射類似于 X 光、聲波定位儀和回波定位。
比賽任務:地震圖像語義分割
這是我第一次完整的 Kaggle 比賽經歷,堅持刷 discussion,follow 蛙神的實驗。比賽中后期一直保持著 top5 左右的名次,ddl 前一度上了 top1,最終 public 第 2,private 第 4。金牌 + 獎金,一次 Kaggle 全體驗。
solution 介紹:
https://www.kaggle.com/c/tgs-salt-identification-challenge/discussion/69178
代碼:
https://github.com/SeuTao/Kaggle_TGS2018_4th_place_solution
關于本次比賽的一些詳細解讀可以參考@AlexL的文章,他們是這次比賽的第 5 名團隊:
https://zhuanlan.zhihu.com/p/47412338
2. Airbus Ship Detection Challenge(8/884) 金牌 2018.11
Airbus 的遙感圖像分割檢測比賽Airbus Ship Detection Challenge,airbus 也就是空中客車公司,懸賞金額 6 萬美金。航運流量增長迅速。更多的船只增加了海上違規行為的機會,這迫使許多組織對公海進行更密切的監視。在過去的 10 年里,人們做了大量的工作,從衛星圖像中自動提取目標,取得了顯著的效果,但在實際操作中存在許多不足。現在空中客車公司與 kaggle 共同舉辦比賽,尋求更好更快的船舶自動檢測方案。
比賽任務:從衛星圖片中找到所有的船只
剛結束 TGS 比賽,此時距離 Airbus deadline 僅剩下不到一個月了,好在之前訓練了一個基礎的 unet 模型,同時把 TGS 的經驗遷移過來,敲定方案是 unet 語義分割模型 + mask rcnn 檢測模型,幾位隊友合力之下順利上升到了 PB 第 2 的位置。這題 AB 榜 shakeup 很大。最終我們 team PB 第 5,private 第 8。Do not trust LB, trust ur CV!
solution 介紹:
Do not trust the LB, trust your CV. (5th/8th in public/private LB)
https://www.kaggle.com/c/airbus-ship-detection/discussion/71601
代碼:
https://github.com/SeuTao/Kaggle_Airbus2018_8th_place_solution
附:來自@Pascal的方案:
https://zhuanlan.zhihu.com/p/48381892
3. Google Doodle Recognition Challenge(12/1316)金牌 2018.12
這次比賽識別的是 Quick, Draw! 游戲的 5000 萬張涂鴉,它們由來自全球各國的超過 1500 萬玩家貢獻,畫得大多是一些蘋果啊,浴缸啊,計算器啊之類的日常用品。
比賽任務:靈魂畫手涂鴉分類
跟 airbus 比賽一樣,花了一個月左右的時間去完成。跟之前比賽認識到的伙伴們組成了 8 人小隊。賽題的數據量和需要的計算資源都很大,模型迭代的效率相對比較低。比賽結束之前也沒有太多有效的探索。有幸的是最終還是能夠 private 榜逆襲,拿下金牌的最后一名。
拿下這塊金牌之后,順利拿到了 kaggle master 頭銜 :)
代碼占坑:
https://github.com/SeuTao/Kaggle_Doodle2018_code
4. Human Protein Atlas Image Classification (9/2236)金牌 2019.01
多標簽蛋白質圖像分類比賽。數據極不均衡,且原始圖像尺寸較大。
比賽任務:蛋白質圖像多標簽分類
連續幾個月每天都用大量業余時間來做比賽確實比較辛苦,拿到 kaggle master tier 之后本來想著休息一段時間。本人本碩 BME 畢業,看到醫學圖像相關的主題異常親切,決定還是試一試蛋白分類比賽。跟隊友二人集成 baseline 結果之后,進入了金牌區(集成提升巨大)。之后就是加入了楊老師的隊伍:
楊佶 Kulbear:Kaggle Human Protein Atlas 蛋白質分類比賽第九名總結和復盤
https://zhuanlan.zhihu.com/p/54734559
結果是 public 第 19,private 第 9,金牌 :)
5. Humpback Whale Identification (2/2131)金牌 2019.03
為了幫助鯨魚保護,科學家們使用照片監視系統 (Photo Surveillance Systems) 來監視海洋活動。他們使用鯨魚尾巴這一獨一無二的標記來在連續的圖像中識別鯨魚,并對它們的活動進行細致地分析。在過去的四十年里,大部分工作基于科學家們的手工作業,這也使得大量的數據未被充分利用。5004 個 id 鯨魚數據,其中許多 id 僅有 one shot 的數據。這是一個 few shot learning 和細粒度分類的問題。
比賽任務:座頭鯨識別
Kaggle Grandmaster tier 要求 5 塊金牌,其中包括一塊 solo gold,遂決定一鼓作氣嘗試 solo,爭取拿下 GM title。比賽時間比較充裕,面對的問題也是我相對熟悉的,很快成績就進入了前 10。然而 PB 達到 0.910 之后,實驗一度沒有進展,名次在逐步下滑。急于打破僵局,嘗試了相關的各種方案,sota 人臉 loss,Person reid 的模型結構,metric learning,pytorch 下也重新搭建了 siamese net 的 pipeline。然而嘗試得越多,導致每條路線實驗不夠充分,更難以得到提升。(后續比賽結果也證明,任何一條路線,工作足夠細致,都是能夠在比賽中取勝的)冷靜下來還是回歸最初的方案,穩扎穩打,最終 rank 2nd。
solution:
https://www.kaggle.com/c/humpback-whale-identification/discussion/83885
代碼:
https://github.com/SeuTao/Kaggle_Whale2019_2nd_palce_solution
Kaggle 參賽感受總結
關于成績:6 個月連續五次比賽全部金牌,這是我開始做第一個比賽時沒有想到的,其中運氣也占了很大成分。每個比賽的初期,我的預期都不會是一塊金牌(因為完全不知道會做成什么樣),而是隨著比賽的進行,不斷提升對自己成績的要求(5%->1%->top10->top5)。
投入精力:在做競賽之前,我的業余時間主要是用來做一些自己的 project 和學習充電。參加 kaggle 競賽半年來,我把所有的業余時間都獻給了這個平臺。周末,國慶,元旦甚至春節假期,幾乎都是在 kaggle 中度過,kaggle 可以說成為了我的第二職業。
收獲回報:從學習角度來說,kaggle 上我收獲了對不同問題,不同數據的認識,相關技能上也有不少提升;從榮譽角度來說,得到了多塊金牌,成為了 Grandmaster,在平臺 10w 用戶中能夠排名 top38(雖然對于很多大佬來說不算什么);還能夠認識很多競賽愛好者,并且相互交流提升;最后,獎金也是一個很好的回報 :)
比賽與工作:比賽與工作的關系,像是訓練場與實戰。作為一個從業者,比賽給我提供了非常好的訓練環境,有非常多的新鮮問題和數據,在限制的條件下供我探索。在這里我想說明的是,比賽成績好,決不能代表實際工作中能夠表現出色。但是反過來,一個算法工程師如果不具備在競賽中得到好名次的能力,又怎么能勝任實際工作呢?
-
圖像
+關注
關注
2文章
1092瀏覽量
41035 -
機器學習
+關注
關注
66文章
8492瀏覽量
134117 -
數據科學
+關注
關注
0文章
168瀏覽量
10407
原文標題:Kaggle大神親述:我是如何半年拿5次金牌晉升Grandmaster的?
文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
發那科榮獲2025 EcoVadis可持續發展金獎
一次消諧裝置與二次消諧裝置區別、一次消諧器與二次消諧器的區別

ADS1198讀寄存器的值時,出現了一些小問題求解答
中興通訊榮獲EcoVadis全球可持續發展金牌認證
麥米焊機蟬聯臨工智科“金牌供應商”
戰略合作新高度!移遠通信榮獲恩智浦“金牌合作伙伴”稱號

評論