女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

<td id="xc8cx"></td>

<td id="xc8cx"></td>

搜索歷史

清空

搜索熱詞

0

聊天消息
系統消息
評論與回復

查看更多

查看更多

查看更多

VIP于到期續費

登錄后你可以

下載海量資料
學習在線課程
觀看技術視頻
寫文章/發帖/加入社區

會員中心

創作中心

發布

創作活動

完善資料讓更多小伙伴認識你，還能領取20積分哦，立即完善>

3天內不再提示

25個Pandas實用技巧

從剪貼板中創建DataFrame

假設你將一些數據儲存在Excel或者Google Sheet中，你又想要盡快地將他們讀取至DataFrame中。你需要選擇這些數據并復制至剪貼板。然后，你可以使用read_clipboard()函數將他們讀取至DataFrame中：

和read_csv()類似，read_clipboard()會自動檢測每一列的正確的數據類型：

讓我們再復制另外一個數據至剪貼板：

神奇的是，pandas已經將第一列作為索引了：

需要注意的是，如果你想要你的工作在未來可復制，那么read_clipboard()并不值得推薦。

將DataFrame劃分為兩個隨機的子集

假設你想要將一個DataFrame劃分為兩部分，隨機地將75%的行給一個DataFrame，剩下的25%的行給另一個DataFrame。

舉例來說，我們的movie ratings這個DataFrame有979行：

我們可以使用sample()函數來隨機選取75%的行，并將它們賦值給"movies_1"DataFrame：

接著我們使用drop()函數來舍棄“moive_1”中出現過的行，將剩下的行賦值給"movies_2"DataFrame：

你可以發現總的行數是正確的：

你還可以檢查每部電影的索引，或者"moives_1":

或者"moives_2":

需要注意的是，這個方法在索引值不唯一的情況下不起作用。

注：該方法在機器學習或者深度學習中很有用，因為在模型訓練前，我們往往需要將全部數據集按某個比例劃分成訓練集和測試集。該方法既簡單又高效，值得學習和嘗試。

多種類型過濾DataFrame

讓我們先看一眼movies這個DataFrame：

In[60]: movies.head() Out[60]:

其中有一列是genre（類型）:

比如我們想要對該DataFrame進行過濾，我們只想顯示genre為Action或者Drama或者Western的電影，我們可以使用多個條件，以"or"符號分隔：

In[62]: movies[(movies.genre=='Action')| (movies.genre=='Drama')| (movies.genre== 'Western')].head() Out[62]:

但是，你實際上可以使用isin()函數將代碼寫得更加清晰，將genres列表傳遞給該函數：

In[63]: movies[movies.genre.isin(['Action','Drama','Western'])].head() Out[63]:

如果你想要進行相反的過濾，也就是你將吧剛才的三種類型的電影排除掉，那么你可以在過濾條件前加上破浪號：

In[64]: movies[~movies.genre.isin(['Action', 'Drama','Western'])].head() Out[64]:

這種方法能夠起作用是因為在Python中，波浪號表示“not”操作。

DataFrame篩選數量最多類別

假設你想要對movies這個DataFrame通過genre進行過濾，但是只需要前3個數量最多的genre。

我們對genre使用value_counts()函數，并將它保存成counts（type為Series）:

該Series的nlargest()函數能夠輕松地計算出Series中前3個最大值：

事實上我們在該Series中需要的是索引：

最后，我們將該索引傳遞給isin()函數，該函數會把它當成genre列表：

In[68]: movies[movies.genre.isin(counts.nlargest(3).index)].head() Out[68]:

這樣，在DataFrame中只剩下Drame, Comdey, Action這三種類型的電影了。

處理缺失值

讓我們來看一看UFO sightings這個DataFrame:

你將會注意到有些值是缺失的。

為了找出每一列中有多少值是缺失的，你可以使用isna()函數，然后再使用sum():

isna()會產生一個由True和False組成的DataFrame，sum()會將所有的True值轉換為1，False轉換為0并把它們加起來。

類似地，你可以通過mean()和isna()函數找出每一列中缺失值的百分比。

如果你想要舍棄那些包含了缺失值的列，你可以使用dropna()函數：

或者你想要舍棄那么缺失值占比超過10%的列，你可以給dropna()設置一個閾值：

len(ufo)返回總行數，我們將它乘以0.9，以告訴pandas保留那些至少90%的值不是缺失值的列。

一個字符串劃分成多列

我們先創建另一個新的示例DataFrame:

如果我們需要將“name”這一列劃分為三個獨立的列，用來表示first, middle, last name呢？我們將會使用str.split()函數，告訴它以空格進行分隔，并將結果擴展成一個DataFrame:

這三列實際上可以通過一行代碼保存至原來的DataFrame:

如果我們想要劃分一個字符串，但是僅保留其中一個結果列呢？比如說，讓我們以", "來劃分location這一列：

如果我們只想保留第0列作為city name，我們僅需要選擇那一列并保存至DataFrame:

Series擴展成DataFrame

讓我們創建一個新的示例DataFrame:

這里有兩列，第二列包含了Python中的由整數元素組成的列表。

如果我們想要將第二列擴展成DataFrame，我們可以對那一列使用apply()函數并傳遞給Series constructor:

通過使用concat()函數，我們可以將原來的DataFrame和新的DataFrame組合起來：

對多個函數進行聚合

讓我們來看一眼從Chipotle restaurant chain得到的orders這個DataFrame:

In[82]: orders.head(10) Out[82]:

每個訂單（order）都有訂單號（order_id），包含一行或者多行。為了找出每個訂單的總價格，你可以將那個訂單號的價格（item_price）加起來。比如，這里是訂單號為1的總價格：

如果你想要計算每個訂單的總價格，你可以對order_id使用groupby()，再對每個group的item_price進行求和。

但是，事實上你不可能在聚合時僅使用一個函數，比如sum()。為了對多個函數進行聚合，你可以使用agg()函數，傳給它一個函數列表，比如sum()和count():

這將告訴我們沒定訂單的總價格和數量。

聚合結果與DataFrame組合

讓我們再看一眼orders這個DataFrame:

In[86]: orders.head(10) Out[86]:

如果我們想要增加新的一列，用于展示每個訂單的總價格呢？回憶一下，我們通過使用sum()函數得到了總價格：

sum()是一個聚合函數，這表明它返回輸入數據的精簡版本（reduced version ）。

換句話說，sum()函數的輸出：

比這個函數的輸入要小：

解決的辦法是使用transform()函數，它會執行相同的操作但是返回與輸入數據相同的形狀：

我們將這個結果存儲至DataFrame中新的一列：

In[91]: orders['total_price']= total_price orders.head(10) Out[91]:

你可以看到，每個訂單的總價格在每一行中顯示出來了。

這樣我們就能方便地甲酸每個訂單的價格占該訂單的總價格的百分比：

In[92]: orders['percent_of_total']=orders.item_price/orders.total_price orders.head(10) In[92]:

選取行和列的切片

讓我們看一眼另一個數據集：

In[93]: titanic.head() Out[93]:

這就是著名的Titanic數據集，它保存了Titanic上乘客的信息以及他們是否存活。

如果你想要對這個數據集做一個數值方面的總結，你可以使用describe()函數：

但是，這個DataFrame結果可能比你想要的信息顯示得更多。

如果你想對這個結果進行過濾，只想顯示“五數概括法”（five-number summary）的信息，你可以使用loc函數并傳遞"min"到"max"的切片:

如果你不是對所有列都感興趣，你也可以傳遞列名的切片：

MultiIndexed Series重塑

Titanic數據集的Survived列由1和0組成，因此你可以對這一列計算總的存活率：

如果你想對某個類別，比如“Sex”，計算存活率，你可以使用groupby():

如果你想一次性對兩個類別變量計算存活率，你可以對這些類別變量使用groupby()：

該結果展示了由Sex和Passenger Class聯合起來的存活率。它存儲為一個MultiIndexed Series，也就是說它對實際數據有多個索引層級。

這使得該數據難以讀取和交互，因此更為方便的是通過unstack()函數將MultiIndexed Series重塑成一個DataFrame:

該DataFrame包含了與MultiIndexed Series一樣的數據，不同的是，現在你可以用熟悉的DataFrame的函數對它進行操作。

創建數據透視表

如果你經常使用上述的方法創建DataFrames，你也許會發現用pivot_table()函數更為便捷：

想要使用數據透視表，你需要指定索引(index),列名(columns),值(values)和聚合函數(aggregation function)。

數據透視表的另一個好處是，你可以通過設置margins=True輕松地將行和列都加起來：

這個結果既顯示了總的存活率，也顯示了Sex和Passenger Class的存活率。

最后，你可以創建交叉表（cross-tabulation），只需要將聚合函數由"mean"改為"count":

這個結果展示了每一對類別變量組合后的記錄總數。

連續數據轉類別數據

讓我們來看一下Titanic數據集中的Age那一列：

它現在是連續性數據，但是如果我們想要將它轉變成類別數據呢？

一個解決辦法是對年齡范圍打標簽，比如"adult", "young adult", "child"。實現該功能的最好方式是使用cut()函數：

這會對每個值打上標簽。0到18歲的打上標簽"child"，18-25歲的打上標簽"young adult"，25到99歲的打上標簽“adult”。

注意到，該數據類型為類別變量，該類別變量自動排好序了（有序的類別變量）。

Style a DataFrame

上一個技巧在你想要修改整個jupyter notebook中的顯示會很有用。但是，一個更靈活和有用的方法是定義特定DataFrame中的格式化（style）。

讓我們回到stocks這個DataFrame:

我們可以創建一個格式化字符串的字典，用于對每一列進行格式化。然后將其傳遞給DataFrame的style.format()函數：

注意到，Date列是month-day-year的格式，Close列包含一個$符號，Volume列包含逗號。

我們可以通過鏈式調用函數來應用更多的格式化：

我們現在隱藏了索引，將Close列中的最小值高亮成紅色，將Close列中的最大值高亮成淺綠色。

這里有另一個DataFrame格式化的例子：

Volume列現在有一個漸變的背景色，你可以輕松地識別出大的和小的數值。

最后一個例子：

現在，Volumn列上有一個條形圖，DataFrame上有一個標題。

請注意，還有許多其他的選項你可以用來格式化DataFrame。

額外技巧

Profile a DataFrame

假設你拿到一個新的數據集，你不想要花費太多力氣，只是想快速地探索下。那么你可以使用pandas-profiling這個模塊。

在你的系統上安裝好該模塊，然后使用ProfileReport()函數，傳遞的參數為任何一個DataFrame。它會返回一個互動的HTML報告：

第一部分為該數據集的總覽，以及該數據集可能出現的問題列表

第二部分為每一列的總結。你可以點擊"toggle details"獲取更多信息

第三部分顯示列之間的關聯熱力圖

第四部分為缺失值情況報告

第五部分顯示該數據及的前幾行

使用示例如下（只顯示第一部分的報告）：

原文鏈接：
https://nbviewer.jupyter.org/github/justmarkham/pandas-videos/blob/master/top_25_pandas_tricks.ipynb

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

函數

函數

+關注

關注
3

文章
4371

瀏覽量
64210
機器學習

機器學習

+關注

關注
66

文章
8492

瀏覽量
134106

原文標題：這 25 個 Pandas 實用技巧你都會嗎

文章出處：【微信號：DBDevs，微信公眾號：數據分析與開發】歡迎添加關注！文章轉載請注明出處。

評論

數據分析與開發
專欄

0 文章 0 閱讀 0 粉絲 0 點贊

關注個人主頁

Hot MySQL 5.7與MySQL 8.0 性能對比
Hot ADC在電路中扮演的作用衡量ADC性能的幾個重要指標

New MySQL編碼機制原理
New 數據脫敏的3種常見方案，好用到爆！

精選推薦
更多

文章

資料

帖子

聚焦無刷吊扇技術痛點，自適應技術如何驅動行業升級？--【其利天下】

其利天下技術
5小時前

155 閱讀

基于GD32E230冰箱柜變頻驅動解決方案

GD32MCU
8小時前

204 閱讀

詳解EV中的主動放電功能

力特奧維斯Littelfuse
9小時前

134 閱讀

防反接電路與MOS管防反接深入解析

張飛實戰電子官方
1天前

240 閱讀

10分鐘上手睿擎平臺GUI開發：第一個LVGL圖形應用

RT-Thread官方賬號
1天前

253 閱讀

全新快速精確的噪聲參數測試方案

笑過就走
1024

5積分

35下載

ROHM用于車載ADAS的8個系統電源樹參考設計資料

o_dream
7.57 MB

免費

52下載

pysunday單文件網絡協議轉發系統

elecfans
0.02 MB

2積分

4下載

SAPI++微信小程序、公眾號SaaS運營平臺

鼠愛米
32.89 MB

免費

0下載

迷你平衡機器人

倪山騁
0.11 MB

3積分

16下載

基于STM32的多功能數控電源設計（原理圖、PCB、程序源碼等）

liuqiangew
15天前

168 閱讀

基于STM32的數據采集+心率檢測儀（原理圖、PCB、程序源碼等）

liuqiangew
15天前

170 閱讀

《電子發燒友電子設計周報》聚焦硬科技領域核心價值第13期：2025.05.26--2025.05.30

電子人steve
8天前

1158 閱讀

飛凌嵌入式ElfBoard ELF 1板卡-LCD硬件原理介紹

jf_13411809
23小時前

304 閱讀

新手小白求助關于mos管驅動芯片的問題！！

鋒鴻啊
23小時前

471 閱讀

推薦專欄
更多

企業產品

資料

方案
更多

華秋（原“華強聚豐”）：

電子發燒友

華秋開發

華秋電路(原"華強PCB")

華秋商城(原"華強芯城")

華秋智造

My ElecFans

APP
網站地圖

設計技術

可編程邏輯

電源/新能源

MEMS/傳感技術

測量儀表

嵌入式技術

制造/封裝

模擬技術

RF/無線

接口/總線/驅動

處理器/DSP

EDA/IC設計

存儲技術

光電顯示

EMC/EMI設計

連接器

行業應用

LEDs

汽車電子

音視頻及家電

通信網絡

醫療電子

人工智能

虛擬現實

可穿戴設備

機器人

安全設備/系統

軍用/航空電子

移動通信

工業控制

便攜設備

觸控感測

物聯網

智能電網

區塊鏈

新科技

特色內容

專欄推薦

學院

設計資源

設計技術

電子百科

電子視頻

元器件知識

工具箱

VIP會員

最新技術文章

產品地圖

品牌地圖

社區

小組

論壇

問答

評測試用

企業服務

產品

資料

文章

方案

企業

供應鏈服務

硬件開發

華秋電路

華秋商城

華秋智造

nextPCB

BOM配單

媒體服務

網站廣告

在線研討會

活動策劃

新聞發布

新品發布

小測驗

設計大賽

華秋

關于我們

投資關系

新聞動態

加入我們

聯系我們

舉報投訴

社交網絡

微博

移動端

發燒友APP

硬聲APP

WAP

聯系我們

廣告合作

王婉珠：[email protected]

內容合作

黃晶晶：[email protected]

內容合作（海外）

張迎輝：[email protected]

供應鏈服務 PCB/IC/PCBA

江良華：[email protected]

投資合作

曾海銀：[email protected]

社區合作

劉勇：[email protected]

關注我們的微信

下載發燒友APP

電子發燒友觀察

電子工程師社區

1-32層PCB打樣·中小批量

元器件現貨·全球代購·SmartBOM

SMT貼片·PCBA加工

PCB Manufacturer

華秋簡介

企業動態

聯系我們

企業文化

企業宣傳片

加入我們

版權所有 ? 湖南華秋數字科技有限公司

長沙市望城經濟技術開發區航空路6號手機智能終端產業園2號廠房3層（0731-88081133）
電子發燒友 （電路圖） 湘公網安備43011202000918 工商網監湘ICP備2023018690號-1

感谢您访问我们的网站，您可能还对以下资源感兴趣：
久久久久免费看黄a级毛片试看