python實(shí)現(xiàn)GATK多線程加速示例
GATK 變異分析
對(duì)于大數(shù)據(jù)樣本可能會(huì)比較慢,因此可以按照染色體拆分后進(jìn)行多線程并行計(jì)算。
下面是我寫的一個(gè)python多線程腳本,僅供參考,拙劣之處敬請(qǐng)指正。
#!/usr/bin/python3
import _thread
import os
import threading
import time
muthreads=[]
bam_file="a.mkdup.bam"
out_file_prefix="flower"
chr_list=["CHR01","CHR02","CHR03","CHR04","CHR05","CHR06","CHR07","CHR08","CHR09","CHR10","CHR11","CHR12","CHR13"]
for chr in chr_list:
threads_comonder_name= "gatk HaplotypeCaller --intervals " + chr +" -R /mnt/j/BSA/02-read-align/Tifrunner2.fasta -I " + bam_file + " -ERC GVCF -O "+ out_file_prefix +"-"+chr+".erc.g.vcf"
muthreads.append(threads_comonder_name)
exitFlag = 0
class myThread (threading.Thread):
def __init__(self, threadID, name, counter, comander):
threading.Thread.__init__(self)
self.threadID = threadID
self.name = name
self.counter = counter
self.comander = comander
def run(self):
print ("開始線程:" + self.name)
print_time(self.name, self.counter, 5, self.comander)
print ("退出線程:" + self.name)
def print_time(threadName, delay, counter,comander):
# while counter:
if exitFlag:
threadName.exit()
time.sleep(delay)
print(comander)
os.system(comander)#調(diào)用操作系統(tǒng)命令行處理數(shù)據(jù)
# counter -= 1
# 創(chuàng)建新線程
threadlist=[]
for i, threadsnu in enumerate(muthreads[0:11]):
print(i)
print(threadsnu)
threadsnew=myThread(1, "Thread-" + str(i), 2, threadsnu)
threadlist.append(threadsnew)
# 開啟新線程
for threads in threadlist:
threads.start()
for threads in threadlist:
threads.join()
print ("運(yùn)行結(jié)束退出主線程")
下面的來(lái)自網(wǎng)絡(luò)未驗(yàn)證
多條染色體的同樣本的vcf文件合并
# for i in {1..22} X Y ;do echo "-I final_chr$i.vcf" '\';done
# for i in {10..19} {1..9} M X Y ;do echo "-I final_chr$i.vcf" '\';done
module load java/1.8.0_91
GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk
$GATK GatherVcfs \
-I final_chr1.vcf \
-I final_chr2.vcf \
-I final_chr3.vcf \
-I final_chr4.vcf \
-I final_chr5.vcf \
-I final_chr6.vcf \
-I final_chr7.vcf \
-I final_chr8.vcf \
-I final_chr9.vcf \
-I final_chr10.vcf \
-I final_chr11.vcf \
-I final_chr12.vcf \
-I final_chr13.vcf \
-I final_chr14.vcf \
-I final_chr15.vcf \
-I final_chr16.vcf \
-I final_chr17.vcf \
-I final_chr18.vcf \
-I final_chr19.vcf \
-I final_chr20.vcf \
-I final_chr21.vcf \
-I final_chr22.vcf \
-I final_chrX.vcf \
-I final_chrY.vcf \
-O merge.vcf
合并的時(shí)候需要注意,vcf文件的順序跟每個(gè)vcf文件里面頭文件順序是相同的。
以上就是python實(shí)現(xiàn)GATK多線程加速示例的詳細(xì)內(nèi)容,更多關(guān)于python GATK多線程加速的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python實(shí)戰(zhàn)之設(shè)計(jì)一個(gè)多功能辦公小工具
這篇文章主要介紹了通過Python制作一個(gè)多功能的辦公小工具,可以實(shí)現(xiàn)應(yīng)用、網(wǎng)頁(yè)直達(dá)以及天氣查詢,代碼具有一定學(xué)習(xí)價(jià)值,需要的小伙伴可以了解一下2021-12-12
python3實(shí)現(xiàn)爬取淘寶美食代碼分享
本文給大家分享的是如何使用python3來(lái)爬取淘寶美食圖片標(biāo)題等信息的方法和代碼,有需要的小伙伴可以參考下2018-09-09
Python使用Excel將數(shù)據(jù)寫入多個(gè)sheet
這篇文章主要介紹了Python使用Excel將數(shù)據(jù)寫入多個(gè)sheet,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05
Python通過模塊化開發(fā)優(yōu)化代碼的技巧分享
模塊化開發(fā)就是把代碼拆成一個(gè)個(gè)“零件”,該封裝封裝,該拆分拆分,下面小編就來(lái)和大家簡(jiǎn)單聊聊python如何用模塊化開發(fā)進(jìn)行代碼優(yōu)化吧2025-04-04
Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過程
這篇文章主要介紹了Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-05-05
pycharm中選中一個(gè)單詞替換所有重復(fù)單詞的實(shí)現(xiàn)方法
這篇文章主要介紹了pycharm中選中一個(gè)單詞替換所有重復(fù)單詞的實(shí)現(xiàn)方法,類似于sublime 里的ctrl+D功能,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2020-11-11

