利用Python讀取多份Excel的小技巧

在使用 Python 批量處理 Excel 時經(jīng)常需要批量讀取數(shù)據(jù)，常見的方式是結(jié)合glob模塊，可以實現(xiàn)將當(dāng)前文件夾下的所有csv批量讀取，并且合并到一個大的DataFrame中

df_list = []
for file in glob.glob("*.csv"):
    df_list.append(pd.read_excel(file))

df = pd.concat(df_list)

但是這樣要求讀取的每一個csv文件格式、列名都是一樣的。

如果想要將每一個csv獨立的進(jìn)行讀取，可以使用os模塊來循環(huán)遍歷當(dāng)前文件夾中的 CSV 文件，然后使用 Pandas 的read_csv函數(shù)來讀取每個文件

import os
import pandas as pd

df_list = []

for file in os.listdir():
    if file.endswith(".csv"):
        df_list.append(pd.read_csv(file))

現(xiàn)在，df_list中的每個元素都是一個DataFrame，但是這樣依舊不夠完美，調(diào)用的時候依舊需要手動從列表中提取。

那如何自動讀取當(dāng)前文件夾下全部CSV數(shù)據(jù)，并將每個CSV賦給不同的變量

可以使用Python中的globals()函數(shù)，它返回一個字典，其中包含當(dāng)前程序的所有全局變量，例如我們可以使用如下語法來為字典中的某個鍵賦值：

globals()[key] = value

所以，使用下面的代碼可以實現(xiàn)自動讀取當(dāng)前文件夾下全部CSV數(shù)據(jù)，并將每個CSV賦給不同的變量

df_list = []

for i, file in enumerate(os.listdir()):
    if file.endswith(".csv"):
        df_list.append(pd.read_csv(file))

for i, df in enumerate(df_list):
    globals()[f'df{i+1}'] = df

當(dāng)然，類似的方法還可以應(yīng)用于讀取Excel的不同sheet，例如假設(shè)data.xlsx有10個sheet

df_list = [pd.read_excel("data.xlsx", sheet_name=i) for i in range(10)]

for i, df in enumerate(df_list):
    globals()[f"df{i+1}"] = df

如果你不清楚數(shù)據(jù)有多少Sheet，也可以使用sheet_name=None，然后根據(jù)返回的字典自動讀取

df_list = pd.read_excel("data.xlsx", sheet_name=None)

for i, (name, df) in enumerate(df_list.items()):
    globals()[f"df_{name}"] = df

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴