利用python合并csv文件的方式實(shí)例
1.用concat方法合并csv
將兩個(gè)相同的csv文件進(jìn)行數(shù)據(jù)合并,通過(guò)pandas的read_csv和to_csv來(lái)完成,即采用concat方法:
#加載第三方庫(kù)
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df2 = pd.read_csv("文件-2.csv")
#合并
df = pd.concat([df1,df2])
df.drop_duplicates() #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')
也可以增加一列標(biāo)簽,以區(qū)別兩個(gè)合并后的數(shù)據(jù):
#加載第三方庫(kù)
import pandas as pd
import numpy as np
#讀取文件
df1 = pd.read_csv("文件-1.csv")
df1["來(lái)自文件"] = "文件-1"
df2 = pd.read_csv("文件-2.csv")
df2["來(lái)自文件"] = "文件-2"
#合并
df = pd.concat([df1,df2])
df.drop_duplicates() #數(shù)據(jù)去重
#保存合并后的文件
df.to_csv('文件.csv',encoding = 'utf-8')
2.glob模塊批量合并csv
在利用合并少量文件時(shí),可以使用上面的concat方法。但是遇到大量的相同文件需要合并,此時(shí)應(yīng)該進(jìn)行批量合并,這可以減少工作量,提高操作效率。
利用Python批量合并csv,這里介紹使用的方法是引入glob模塊。
glob模塊是最簡(jiǎn)單的模塊之一,內(nèi)容少,它可以查找符合特定規(guī)則的文件路徑名。
通過(guò)glob方法遍歷所有文件,讀取數(shù)據(jù)并追加保存到文件中。
import numpy as np
import pandas as pd
import glob
import re
csv_list = glob.glob('*.csv')
print('共發(fā)現(xiàn)%s個(gè)CSV文件'% len(csv_list))
print('正在處理............')
for i in csv_list:
fr = open(i,'r',encoding='utf-8').read()
with open('文件合集.csv','a',encoding='utf-8') as f:
f.write(fr)
print('合并完畢!')
以上方法是合并csv文件,要合并excel文件同理。
補(bǔ)充:Python處理(加載、合并)多個(gè)csv文件
數(shù)據(jù)集介紹:本數(shù)據(jù)集是某化工系統(tǒng)的數(shù)據(jù),一共有很多個(gè)月的,我這里就拿一個(gè)月的數(shù)據(jù)集,August_data(八月的數(shù)據(jù)集),一共有31個(gè)csv文件。
方法一 for循環(huán)遍歷+os.listdir(directory_path)+[ for file in tqdm] + os.path.join(path,file)
import pandas as pd
import numpy as np
from tqdm import tqdm
import os
def get_data(path):
df_list = []
for file in tqdm(os.listdir(path)):##進(jìn)度條
file_path = os.path.join(path, file)
df = pd.read_csv(file_path)
df_list.append(df)
df = pd.concat(df_list)
return df
cPath = '.\August_data'
# cPath = 'F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷(xiāo)系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)' #F:/BaiduNetdiskDownload/寧東電廠數(shù)據(jù)及分析要求/寧東脫銷(xiāo)系統(tǒng)優(yōu)化-上海交大/SCR數(shù)據(jù)-2020-1/8月數(shù)據(jù)
# uPath = str(cPath)#uPath = unicode(cPath,'utf-8')
# dirs = os.listdir(TEST_PATH)
# print(dirs)
test_df = get_data(cPath)
print(test_df.head())
# test_df.to_csv(path_or_buf="test.csv",index=False)#保存為CSV文件
方法二 glob方法
#!/usr/bin/env python
# coding=utf-8
import glob
import time
import csv
import pandas as pd
from tqdm import tqdm
# a new file
#open all the CSV file
#遍歷文件夾下所有csv文件
TEST_PATH = '.\August_data'
csv_list = glob.glob(f'{TEST_PATH}\*.csv')
print('共有%s個(gè)CSV文件'% len(csv_list))
# print (csv_list)
def get_data():
df_list = []
for csv_file in csv_list:
df = pd.read_csv(csv_file)
df_list.append(df)
df = pd.concat(df_list)
print("Loading Oer")
return df
get_data()
總結(jié)
到此這篇關(guān)于利用python合并csv文件的文章就介紹到這了,更多相關(guān)python合并csv文件內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
使用Python做定時(shí)任務(wù)及時(shí)了解互聯(lián)網(wǎng)動(dòng)態(tài)
這篇文章主要介紹了使用Python做定時(shí)任務(wù)及時(shí)了解互聯(lián)網(wǎng)動(dòng)態(tài),需要的朋友可以參考下2019-05-05
python3 http提交json參數(shù)并獲取返回值的方法
今天小編就為大家分享一篇python3 http提交json參數(shù)并獲取返回值的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
Python3實(shí)現(xiàn)的反轉(zhuǎn)單鏈表算法示例
這篇文章主要介紹了Python3實(shí)現(xiàn)的反轉(zhuǎn)單鏈表算法,結(jié)合實(shí)例形式總結(jié)分析了Python基于迭代算法與遞歸算法實(shí)現(xiàn)的翻轉(zhuǎn)單鏈表相關(guān)操作技巧,需要的朋友可以參考下2019-03-03
利用Python搶回在螞蟻森林逝去的能量(實(shí)現(xiàn)代碼)
螞蟻森林是一項(xiàng)旨在帶動(dòng)公眾低碳減排的公益項(xiàng)目,每個(gè)人的低碳行為在螞蟻森林里可計(jì)為"綠色能量",很多小伙伴都玩過(guò),今天小編給大家分享一篇教程關(guān)于Python搶回在螞蟻森林逝去的能量,感興趣的朋友跟隨小編一起看看吧2022-03-03
Django+Ajax+jQuery實(shí)現(xiàn)網(wǎng)頁(yè)動(dòng)態(tài)更新的實(shí)例
今天小編就為大家分享一篇Django+Ajax+jQuery實(shí)現(xiàn)網(wǎng)頁(yè)動(dòng)態(tài)更新的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-05-05
python學(xué)習(xí)筆記之調(diào)用eval函數(shù)出現(xiàn)invalid syntax錯(cuò)誤問(wèn)題
python是一門(mén)多種用途的編程語(yǔ)言,時(shí)常扮演腳本語(yǔ)言的角色。一般來(lái)說(shuō),python可以定義為面向?qū)ο蟮哪_本語(yǔ)言,這個(gè)定義把面向?qū)ο蟮闹С趾兔嫦蚰_本語(yǔ)言的角色融合在一起。很多時(shí)候,人們常常喜歡用“腳本”和不是語(yǔ)言來(lái)描述python的代碼文件。2015-10-10
python中的List sort()與torch.sort()
這篇文章主要介紹了python中的List sort()與torch.sort()使用方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-09-09

