利用python合并csv文件的方式實(shí)例

更新時(shí)間：2022年07月12日 10:51:46 作者：流沙沒(méi)塵居士

由于項(xiàng)目取數(shù)需要,要將兩個(gè)不同的csv文件合并到一個(gè)文件中,所以下面這篇文章主要給大家介紹了關(guān)于利用python合并csv文件的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

1.用concat方法合并csv

將兩個(gè)相同的csv文件進(jìn)行數(shù)據(jù)合并，通過(guò)pandas的read_csv和to_csv來(lái)完成，即采用concat方法：

#加載第三方庫(kù)
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df2 = pd.read_csv("文件-2.csv")
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')

也可以增加一列標(biāo)簽，以區(qū)別兩個(gè)合并后的數(shù)據(jù)：

#加載第三方庫(kù)
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df1["來(lái)自文件"] = "文件-1"
df2 = pd.read_csv("文件-2.csv")
df2["來(lái)自文件"] = "文件-2"
#合并
df = pd.concat([df1,df2])
df.drop_duplicates()  #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')

2.glob模塊批量合并csv

在利用合并少量文件時(shí)，可以使用上面的concat方法。但是遇到大量的相同文件需要合并，此時(shí)應(yīng)該進(jìn)行批量合并，這可以減少工作量，提高操作效率。

利用Python批量合并csv，這里介紹使用的方法是引入glob模塊。

glob模塊是最簡(jiǎn)單的模塊之一，內(nèi)容少，它可以查找符合特定規(guī)則的文件路徑名。

通過(guò)glob方法遍歷所有文件，讀取數(shù)據(jù)并追加保存到文件中。

import numpy as np
import pandas as pd
import glob
import re
 
csv_list = glob.glob('*.csv')
print('共發(fā)現(xiàn)%s個(gè)CSV文件'% len(csv_list))
print('正在處理............')
for i in csv_list:
    fr = open(i,'r',encoding='utf-8').read()
    with open('文件合集.csv','a',encoding='utf-8') as f:
        f.write(fr)
print('合并完畢！')

以上方法是合并csv文件，要合并excel文件同理。

補(bǔ)充：Python處理(加載、合并)多個(gè)csv文件

數(shù)據(jù)集介紹：本數(shù)據(jù)集是某化工系統(tǒng)的數(shù)據(jù)，一共有很多個(gè)月的，我這里就拿一個(gè)月的數(shù)據(jù)集，August_data（八月的數(shù)據(jù)集)，一共有31個(gè)csv文件。

方法一 for循環(huán)遍歷+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)

import pandas as pd
import numpy as np 
from tqdm import tqdm
import os
 
def get_data(path):
    df_list = []
    for file in tqdm(os.listdir(path)):##進(jìn)度條
        file_path = os.path.join(path, file)
        df = pd.read_csv(file_path)
        df_list.append(df)
    df = pd.concat(df_list)
    return df
 
cPath = '.\August_data'
# cPath = 'F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷(xiāo)系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)' #F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷(xiāo)系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)
# uPath = str(cPath)#uPath = unicode(cPath,'utf-8')
# dirs = os.listdir(TEST_PATH)
# print(dirs)
test_df = get_data(cPath)
print(test_df.head())
# test_df.to_csv(path_or_buf="test.csv",index=False)#保存為CSV文件

方法二 glob方法

#!/usr/bin/env python
# coding=utf-8
 
import glob
import time
import csv
import pandas as pd
from tqdm import tqdm
# a new file 
#open all the CSV file
#遍歷文件夾下所有csv文件
TEST_PATH = '.\August_data' 
csv_list = glob.glob(f'{TEST_PATH}\*.csv')
print('共有%s個(gè)CSV文件'% len(csv_list))
# print (csv_list)
 
def get_data():
    df_list = []
    for csv_file in csv_list:
        df = pd.read_csv(csv_file)
        df_list.append(df)
    df = pd.concat(df_list)
    print("Loading Oer")
    return df
get_data()