女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何加速apply函數600倍的技巧

數據分析與開發 ? 來源:kaggle競賽寶典 ? 作者:杰少 ? 2022-05-12 10:14 ? 次閱讀

推薦關注↓

[ 引言 ] 雖然目前dask,cudf等包的出現,使得我們的數據處理大大得到了加速,但是并不是每個人都有比較好的gpu,非常多的朋友仍然還在使用pandas工具包,但有時候真的很無奈,pandas的許多問題我們都需要使用apply函數來進行處理,而apply函數是非常慢的,本文我們就介紹如何加速apply函數600倍的技巧。

實驗對比01Apply(Baseline) 我們以Apply為例,原始的Apply函數處理下面這個問題,需要18.4s的時間。
importpandasaspd
importnumpyasnp
df=pd.DataFrame(np.random.randint(0,11,size=(1000000,5)),columns=('a','b','c','d','e'))
deffunc(a,b,c,d,e):
ife==10:
returnc*d
elif(e=5):
returnc+d
elifereturna+b
%%time
df['new']=df.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
CPUtimes:user17.9s,sys:301ms,total:18.2s
Walltime:18.4s

		
			02Swift加速
											因為處理是并行的,所以我們可以使用Swift進行加速,在使用Swift之后,相同的操作在我的機器上可以提升到7.67s。
			
%%time
#!pipinstallswifter
importswifter
df['new']=df.swifter.apply(lambdax:func(x['a'],x['b'],x['c'],x['d'],x['e']),axis=1)
HBox(children=(HTML(value='DaskApply'),FloatProgress(value=0.0,max=16.0),HTML(value='')))

CPUtimes:user329ms,sys:240ms,total:569ms
Walltime:7.67s

		
			03向量化
											使用Pandas和Numpy的最快方法是將函數向量化。如果我們的操作是可以直接向量化的話,那么我們就盡可能的避免使用:
			
  • for循環;
  • 列表處理;
  • apply等操作
在將上面的問題轉化為下面的處理之后,我們的時間縮短為:421 ms。
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']'new']=df['c']+df['d']
mask=df['e']'new']=df['a']+df['b']
CPUtimes:user134ms,sys:149ms,total:283ms
Walltime:421ms

		
			04類別轉化+向量化
											我們先將上面的類別轉化為int16型,再進行相同的向量化操作,發現時間縮短為:116 ms。
			
forcolin('a','b','c','d'):
df[col]=df[col].astype(np.int16)
%%time
df['new']=df['c']*df['d']#defaultcasee==10
mask=df['e']'new']=df['c']+df['d']
mask=df['e']'new']=df['a']+df['b']
CPUtimes:user71.3ms,sys:42.5ms,total:114ms
Walltime:116ms

		
			
											05轉化為values處理
											在能轉化為.values的地方盡可能轉化為.values,再進行操作。 
			
  • 此處先轉化為.values等價于轉化為numpy,這樣我們的向量化操作會更加快捷。
于是,上面的操作時間又被縮短為:74.9ms。
%%time
df['new']=df['c'].values*df['d'].values#defaultcasee==10
mask=df['e'].values'new']=df['c']+df['d']
mask=df['e'].values'new']=df['a']+df['b']
CPUtimes:user64.5ms,sys:12.5ms,total:77ms
Walltime:74.9ms

		
			

		
			實驗匯總
						通過上面的一些小的技巧,我們將簡單的Apply函數加速了幾百倍,具體的:
			
  • Apply: 18.4 s
  • Apply + Swifter: 7.67 s
  • Pandas vectorizatoin: 421 ms
  • Pandas vectorization + data types: 116 ms
  • Pandas vectorization + values + data types: 74.9ms
參考文獻:Do You Use Apply in Pandas? There is a 600x Faster Way

審核編輯 :李倩


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • SWIFT
    +關注

    關注

    0

    文章

    116

    瀏覽量

    24242
  • 函數
    +關注

    關注

    3

    文章

    4368

    瀏覽量

    64185
  • 向量
    +關注

    關注

    0

    文章

    55

    瀏覽量

    11849

原文標題:Pandas 中 Apply 函數加速百倍的技巧

文章出處:【微信號:DBDevs,微信公眾號:數據分析與開發】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    使用NVIDIA CUDA-X庫加速科學和工程發展

    NVIDIA GTC 全球 AI 大會上宣布,開發者現在可以通過 CUDA-X 與新一代超級芯片架構的協同,實現 CPU 和 GPU 資源間深度自動化整合與調度,相較于傳統加速計算架構,該技術可使計算工程工具運行速度提升至原來的 11 ,計算規模增加至 5
    的頭像 發表于 03-25 15:11 ?563次閱讀

    詳解RTOS中的Hook函數

    Hook函數是RTOS中的一個關鍵特性,通過該函數,用戶可以增強對任務管理的控制,定義系統行為。
    的頭像 發表于 03-24 16:14 ?273次閱讀

    AN207 GD32G5x3三角函數加速器TMU的使用說明

    電子發燒友網站提供《AN207 GD32G5x3三角函數加速器TMU的使用說明.pdf》資料免費下載
    發表于 01-21 17:30 ?1次下載
    AN207 GD32G5x3三角<b class='flag-5'>函數</b><b class='flag-5'>加速</b>器TMU的使用說明

    使用LIS2DW12TR加速度傳感器可以計算物體重力方向運動的距離嗎

    我先計算靜止狀態下的物體加速度,判斷加速度大于靜止的1.01時,開始計時間。通過實時加速度和初始加速度的差值更新速度,通過積分,計算每一段
    發表于 12-12 16:21

    SUMIF函數對比VLOOKUP的優勢

    在Excel中,數據管理和分析是日常工作中不可或缺的一部分。SUMIF函數和VLOOKUP函數是兩個非常受歡迎的函數,它們可以幫助用戶快速地處理和分析數據。盡管它們都可以用于查找和匯總數據,但它們在
    的頭像 發表于 11-11 09:16 ?1053次閱讀

    SUMIF函數與SUMIFS函數的區別

    SUMIF函數和SUMIFS函數都是Excel中用于條件求和的函數,它們可以幫助用戶根據特定的條件對數據進行求和。盡管它們的基本功能相似,但在使用場景和功能上存在一些差異。以下是對這兩個函數
    的頭像 發表于 10-30 09:51 ?7017次閱讀

    SUMIF函數使用教程

    SUMIF函數是Excel中非常實用的函數之一,能夠根據指定條件對數據進行篩選和求和操作。以下是對SUMIF函數使用方法的詳細教程: 一、基本語法 SUMIF函數的基本語法為: =SU
    的頭像 發表于 10-30 09:50 ?1758次閱讀

    RTOS中鉤子函數的用途及用法

    在很多操作系統中,都存在這樣一類API函數接口:HOOK函數(也叫鉤子函數)。
    的頭像 發表于 10-23 16:25 ?696次閱讀
    RTOS中鉤子<b class='flag-5'>函數</b>的用途及用法

    如何由系統函數求頻率響應

    頻率響應函數表征了測試系統對給定頻率下的穩態輸出與輸入的關系,可以通過系統函數(或稱為傳遞函數)來求解。以下是由系統函數求頻率響應的步驟: 一、理解系統
    的頭像 發表于 10-18 09:32 ?3124次閱讀

    什么叫系統的頻率響應函數?它和傳遞函數有何關系

    系統的頻率響應函數(Frequency Response Function, FRF)是描述線性時不變(Linear Time-Invariant, LTI)系統在不同頻率下輸入和輸出之間關系的數學
    的頭像 發表于 10-18 09:29 ?4068次閱讀

    錢江賽600線路圖

    錢江 賽600 線路圖
    發表于 10-11 14:16 ?3次下載

    OPA847輸入600Khz,600mv正弦波,放大5,輸出在+5v附近出現類似三角波的波形,為什么?

    各位高人,你們好: 我現在用DDS 產生600Khz,600mv正弦波作為OPA847輸入,放大5,輸出在+5v附近出現類似三角波的波形,換了R114值多次,沒用,求高人指點。用TINA仿真完全正常,在板子上就是不輸出!!附
    發表于 09-12 07:14

    請問OPA690可以用作5或者10的放大嗎?電阻如何選擇?

    這是OPA690數據手冊中典型電路,我按照其電阻值的設置,焊接了一個電路。由于我們實驗室的信號發生器的輸出能力不行,輸入端的50ohm的電阻會將我的信號幅度拉低,我將其換成600ohm左右的電阻
    發表于 09-12 06:10

    面試常考+1:函數指針與指針函數、數組指針與指針數組

    在嵌入式開發領域,函數指針、指針函數、數組指針和指針數組是一些非常重要但又容易混淆的概念。理解它們的特性和應用場景,對于提升嵌入式程序的效率和質量至關重要。一、指針函數函數指針指針
    的頭像 發表于 08-10 08:11 ?1326次閱讀
    面試常考+1:<b class='flag-5'>函數</b>指針與指針<b class='flag-5'>函數</b>、數組指針與指針數組

    超亮燈箱PFBR-600SW2系列 助力檢測的高速化、提升檢測精度

    穩定發光等多種功能的光源,相較上代產品亮度增加1.4,有助于更快、更準確的檢測。用于連接專用光纖導管及塑料光纖導管。PFBR-600SW2系列燈箱的特點可選擇常時
    的頭像 發表于 07-20 08:35 ?444次閱讀
    超亮燈箱PFBR-<b class='flag-5'>600</b>SW2系列  助力檢測的高速化、提升檢測精度