對(duì)python數(shù)據(jù)切割歸并算法的實(shí)例講解
當(dāng)一個(gè) .txt 文件的數(shù)據(jù)過于龐大,此時(shí)想要對(duì)數(shù)據(jù)進(jìn)行排序就需要先將數(shù)據(jù)進(jìn)行切割,然后通過歸并排序,最終實(shí)現(xiàn)對(duì)整體數(shù)據(jù)的排序。要實(shí)現(xiàn)這個(gè)過程我們需要進(jìn)行以下幾步:獲取總數(shù)據(jù)行數(shù);根據(jù)行數(shù)按照自己的需要對(duì)數(shù)據(jù)進(jìn)行切割;對(duì)每組數(shù)據(jù)進(jìn)行排序 最后對(duì)所有數(shù)據(jù)進(jìn)行歸并排序。
下面我們就來實(shí)現(xiàn)這整個(gè)過程:
一:獲取總數(shù)據(jù)的行
def get_file_lines(file_path):
# 目標(biāo)文件的路徑
file_path = str(file_path)
with open(file_path, 'rb') as file:
# 定義行數(shù)
i = 0
while True:
# 一次讀取一行數(shù)據(jù)
line = file.readline()
if not line :
break
else:
# 每讀一行,行數(shù)加一
i += 1
#設(shè)置進(jìn)度條,每當(dāng)i讀取1000000行時(shí)打印一次i
# 每當(dāng)讀取1000000的整數(shù)倍行時(shí),打印行數(shù)(進(jìn)度條)
if i % 1000000 == 0:
print(i)
# 打印總行數(shù)
print(i)
return i
二:對(duì)數(shù)據(jù)進(jìn)行切割
# 定義均等切割函數(shù),num是待切割的文件的行數(shù)的值,n為切割份數(shù),file_path是待切割的文件,file_dir是切割好的文件寫入的目錄
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果樣本剛好可以整除為n份
if num % n == 0:
for i in range(n):
# 則直接將樣本分為n分沒份對(duì)應(yīng)num/n個(gè)
last_list.append(num / n)
# 如果不能整除
if num % n != 0:
# 如果不能整除,則先將num整除n-1并取n-1份,余下的單獨(dú)做一份
evg = (num - num % n) // (n - 1)
for i in range(n):
last_list.append(evg)
last_list.append(num % (n - 1))
print(last_list)
# return last_list
# 對(duì)應(yīng)于切割后的每一份數(shù)據(jù)
with open(file_path, 'rb') as path:
for i in range(n):
# 創(chuàng)建臨時(shí)文件
tmp_file = file_dir + str(i) + '.txt'
# 打開臨時(shí)文件,將內(nèi)容一條一條的寫入
file = open(tmp_file, 'wb')
for j in range(int(last_list[i])):
line = path.readline()
file.write(line)
print(line)
print('------------')
file.close()
三:對(duì)每組數(shù)據(jù)進(jìn)行排序的內(nèi)容由讀者根據(jù)自身數(shù)據(jù)需要進(jìn)行排序,下面直接介紹歸并排序
四:歸并排序
def merge( mylist1, mylist2, file1):
while len(mylist1) > 0 and len(mylist2) > 0:
if mylist1[0]<mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
del mylist1[0]
elif mylist1[0] > mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist2[0]))
del mylist2[0]
else:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
file.write(str(mylist2[0]))
del mylist1[0]
del mylist2[0]
with open(file1, 'a') as file:
for i in mylist1:
file.write(str(i))
for i in mylist2:
file.write(str(i))
總結(jié):對(duì)于一個(gè)大型數(shù)據(jù)文件,我們可以將其切割成若干個(gè)小型的數(shù)據(jù)文件,然后分別的這些小型的數(shù)據(jù)文件進(jìn)行排序,最后使用歸并排序?qū)⑦@些數(shù)據(jù)文件寫入到一個(gè)總體文件中,從而實(shí)現(xiàn)了對(duì)這個(gè)大型數(shù)據(jù)文件的排序。
以上這篇對(duì)python數(shù)據(jù)切割歸并算法的實(shí)例講解就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- python實(shí)現(xiàn)數(shù)據(jù)預(yù)處理之填充缺失值的示例
- python數(shù)據(jù)預(yù)處理之將類別數(shù)據(jù)轉(zhuǎn)換為數(shù)值的方法
- Python實(shí)現(xiàn)的拉格朗日插值法示例
- Python實(shí)現(xiàn)的線性回歸算法示例【附csv文件下載】
- Python實(shí)現(xiàn)的邏輯回歸算法示例【附測(cè)試csv文件下載】
- Python基于聚類算法實(shí)現(xiàn)密度聚類(DBSCAN)計(jì)算【測(cè)試可用】
- Python機(jī)器學(xué)習(xí)之scikit-learn庫中KNN算法的封裝與使用方法
- Python實(shí)現(xiàn)的各種常見分布算法示例
- python實(shí)現(xiàn)樸素貝葉斯算法
- python 遞歸深度優(yōu)先搜索與廣度優(yōu)先搜索算法模擬實(shí)現(xiàn)
- Python實(shí)現(xiàn)Dijkstra算法
- Python數(shù)據(jù)預(yù)處理之?dāng)?shù)據(jù)規(guī)范化(歸一化)示例
相關(guān)文章
通過淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python?scrapy?requests與response對(duì)象
本文主要介紹了通過淘寶數(shù)據(jù)爬蟲學(xué)習(xí)python?scrapy?requests與response對(duì)象,首先從Resquest和Response對(duì)象開始展開詳細(xì)文章,需要的小伙伴可以參考一下2022-05-05
pytorch 實(shí)現(xiàn)二分類交叉熵逆樣本頻率權(quán)重
這篇文章主要介紹了pytorch 實(shí)現(xiàn)二分類交叉熵逆樣本頻率權(quán)重的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05
Flask框架利用Echarts實(shí)現(xiàn)繪制圖形
echarts是百度推出的一款開源的基于JavaScript的可視化圖表庫,該開發(fā)庫目前發(fā)展非常不錯(cuò),且支持各類圖形的繪制可定制程度高。如下演示案例中,將分別展示運(yùn)用該繪圖庫如何前后端交互繪制(餅狀圖,柱狀圖,折線圖)這三種最基本的圖形,需要的可以參考一下2022-10-10
詳解用python -m http.server搭一個(gè)簡(jiǎn)易的本地局域網(wǎng)
這篇文章主要介紹了詳解用python -m http.server搭一個(gè)簡(jiǎn)易的本地局域網(wǎng),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
python3連接kafka模塊pykafka生產(chǎn)者簡(jiǎn)單封裝代碼
今天小編就為大家分享一篇python3連接kafka模塊pykafka生產(chǎn)者簡(jiǎn)單封裝代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12
pytorch: tensor類型的構(gòu)建與相互轉(zhuǎn)換實(shí)例
今天小編就為大家分享一篇pytorch: tensor類型的構(gòu)建與相互轉(zhuǎn)換實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-07-07
python實(shí)現(xiàn)簡(jiǎn)易自習(xí)室座位預(yù)約系統(tǒng)
本文將結(jié)合實(shí)例代碼,介紹python實(shí)現(xiàn)簡(jiǎn)易自習(xí)室座位預(yù)約系統(tǒng),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-06-06
Python簡(jiǎn)潔強(qiáng)大的ORM框架Peewee的用法詳解
這篇文章主要為大家詳細(xì)介紹了Peewee,它作為一款簡(jiǎn)潔且功能強(qiáng)大的?ORM(對(duì)象關(guān)系映射)框架,為開發(fā)者提供了高效便捷的數(shù)據(jù)庫交互方式,下面我們來看看它的具體使用吧2025-01-01

