python 快速把超大txt文件轉(zhuǎn)存為csv的實(shí)例

更新時間：2018年10月26日 15:11:45 作者：nudt_qxx

今天小編就為大家分享一篇python 快速把超大txt文件轉(zhuǎn)存為csv的實(shí)例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

今天項目有個需求，就是把txt文件轉(zhuǎn)為csv，txt之間是空格隔開，轉(zhuǎn)為csv時需要把空格轉(zhuǎn)換為逗號，網(wǎng)上找的一個版本，只需要三行代碼，特別犀利：

import numpy as np
import pandas as pd

data_txt = np.loadtxt('datas_train.txt')
data_txtDF = pd.DataFrame(data_txt)
data_txtDF.to_csv('datas_train.csv',index=False)

上述的datas_train.txt只有不到100MB，560W行數(shù)據(jù)，三分鐘之內(nèi)轉(zhuǎn)換完畢。

然后我換了一個5600W行共1.2G的txt文本，用上述代碼轉(zhuǎn)換，電腦直接卡死了。

原因在于上述代碼會把全部的txt加載進(jìn)內(nèi)存，然后再轉(zhuǎn)換，這就會造成電腦內(nèi)存耗盡。

然后就想到了切割數(shù)據(jù)的辦法，具體實(shí)現(xiàn)如下：

import numpy as np
import pandas as pd


train_data = pd.read_table('big_data.txt',iterator=True,header=None)

while True:
 try:
  chunk = train_data.get_chunk(5600000)
  chunk.columns = ['user_id','spu_id','buy_or_not','date']
  chunk.to_csv('big_data111.csv', mode='a',header=False,index = None)
 except Exception as e:
  break

這里我把數(shù)據(jù)分成了小塊，每塊數(shù)據(jù)有560W行，分11次加載就能全部加載完了，速度也很快，總共花了5分鐘左右。

注意，get_chunk()里面的參數(shù)表示文件的行數(shù)，而非字節(jié)數(shù)。

以上這篇python 快速把超大txt文件轉(zhuǎn)存為csv的實(shí)例就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python基礎(chǔ)之條件控制操作示例【if語句】
這篇文章主要介紹了Python基礎(chǔ)之條件控制操作,結(jié)合實(shí)例形式分析了Python使用if語句進(jìn)行條件控制的相關(guān)操作技巧與相關(guān)注意事項,需要的朋友可以參考下
2019-03-03
pandas中去除指定字符的實(shí)例
今天小編就為大家分享一篇pandas中去除指定字符的實(shí)例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-05-05
Python基礎(chǔ)之元編程知識總結(jié)
很多人不理解“元編程”是個什么東西,關(guān)于它也沒有一個十分準(zhǔn)確的定義.這篇文章要說的是Python里的元編程,實(shí)際上也不一定就真的符合“元編程”的定義.只不過我無法找到一個更準(zhǔn)確的名字來代表這篇文章的主題,所以就借了這么一個名號,需要的朋友可以參考下
2021-05-05
Python同時迭代多個序列的方法
這篇文章主要介紹了Python同時迭代多個序列的方法，文中講解非常細(xì)致，代碼幫助大家更好的理解和學(xué)習(xí)，感興趣的朋友可以了解下
2020-07-07
python中tkinter模塊用法詳細(xì)介紹
這篇文章主要介紹了tkinter模塊和ttk模塊的區(qū)別,以及如何在tkinter窗口中設(shè)計組件和進(jìn)行布局管理的相關(guān)資料,文中通過代碼及圖文介紹的非常詳細(xì),需要的朋友可以參考下
2024-11-11
python實(shí)現(xiàn)信號時域統(tǒng)計特征提取代碼
今天小編就為大家分享一篇python實(shí)現(xiàn)信號時域統(tǒng)計特征提取代碼，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
celery在python爬蟲中定時操作實(shí)例講解
在本篇文章里小編給大家整理了一篇關(guān)于celery在python爬蟲中定時操作實(shí)例講解內(nèi)容，需要的朋友們可以參考下。
2020-11-11
Python selenium爬蟲實(shí)現(xiàn)定時任務(wù)過程解析
這篇文章主要介紹了Python selenium爬蟲實(shí)現(xiàn)定時任務(wù)過程解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-06-06
python Autopep8實(shí)現(xiàn)按PEP8風(fēng)格自動排版Python代碼
這篇文章主要介紹了python Autopep8實(shí)現(xiàn)按PEP8風(fēng)格自動排版Python代碼，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-03-03
15個高級Python技巧提高代碼效率更加Pythonic
Python?是一種多用途、功能強(qiáng)大的編程語言,具有廣泛的特性和能力,在本文中,我們將探討?15?個高級?Python?技巧,它們有助于改善您的開發(fā)工作流程,并使您的代碼更加高效,更加?Pythonic
2023-12-12