搜索
楼主: Jimmy

生信编程直播第二题-hg19基因组序列的一些探究

  [复制链接]

0

主题

3

帖子

48

积分

新手上路

Rank: 1

积分
48
发表于 2017-1-14 19:30:21 | 显示全部楼层
037+python
Method 1:by pysam module
i use GRCm38.genome.fa file that already existed in my server


Method 2 : use the short fasta file in the example

[Python] 纯文本查看 复制代码
from collections import OrderedDict
chr_dict=OrderedDict()
temp_chr = ""

with open("hg19.fa","r") as hg19:
	for line in hg19 :
		line = line.strip()
		if line.startswith(">") :
			temp_chr = line
			chr_dict[temp_chr] = ""
		else :
			chr_dict[temp_chr] += line

for seqName,seq in chr_dict.items() :
	print(seqName,seq)
	seqLength = len(seq)
	N = seq.count("N")
	GC = seq.count("G")+seq.count("C")+seq.count("c")+seq.count("g")
	print(seqName,seqLength,"%.2f"%(N/seqLength),"%.2f"%(GC/(seqLength-N)))




回复 支持 反对

使用道具 举报

0

主题

4

帖子

80

积分

注册会员

Rank: 2

积分
80
发表于 2017-1-14 20:47:10 | 显示全部楼层
003+python
我觉得这道题的难点在于如何存储序列名称和序列,并将它们对应起来。
本人还是python菜鸟,还没有看完廖雪峰老师的网站。只是将视频好好看了几遍,根据第一节课老师的推荐,使用的jupyter notebook编辑的,个人感觉确实很好用,支持Tab键自动补齐,自动语法高亮。与第一节课相比,对for循环,if语句,模块等概念和用法有了较为清晰的认识,对于有序字典这个概念,虽然有了认识,但是对于用法还是不太熟悉。需要进一步学习。
无标题.png
对于老师讲的pysam模块,让我进一步了解到了Python的便捷之处,目前已在虚拟机的linux上安装成功,待进一步学习。
回复 支持 1 反对 0

使用道具 举报

0

主题

2

帖子

116

积分

注册会员

Rank: 2

积分
116
发表于 2017-1-14 22:20:31 | 显示全部楼层
本帖最后由 020-perl-python 于 2017-1-14 22:23 编辑

结合老师给的视频,现在基本看的懂了,自己加了一些东西。020-python


[Python] 纯文本查看 复制代码
from collections import OrderedDict

chr_dict = OrderedDict()
tmp_chr = ""

with open("hg19.txt","r") as f:
         for line in f:
                 line = line.strip()
                 if line.startswith(">"):
                         tmp_chr = line
                         chr_dict[tmp_chr] = ""
                 else:
                         chr_dict[tmp_chr] += line
print("chr lenth A T C G N(%) GC(%)")
for seqName, seq in chr_dict.items():
        a = seqName.strip(">")
        A = seq.count("A") + seq.count("a")
        T = seq.count("T") + seq.count("t")
        C = seq.count("C") + seq.count("c")
        G = seq.count("G") + seq.count("g")
        seqLen = len(seq)
        N = seq.count("N")
        GC = seq.count("G") + seq.count("g") + seq.count("C") + seq.count("c")
        print(a,seqLen,A,T,C,G,"%.2f"%(N/seqLen),"%.2f"%(GC/(seqLen-N)))

结果如下:
chr lenth A T C G N(%) GC(%)
chr_1 44 13 10 7 10 0.09 0.42
chr_2 34 11 6 5 8 0.12 0.43
chr_3 33 10 6 3 10 0.12 0.45
chr_4 26 9 4 2 7 0.12 0.39





回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-1-14 22:37:16 来自手机 | 显示全部楼层
本帖最后由 tingting 于 2017-1-28 23:51 编辑

121-R/python-婷 R语言的还需要稍后再做作业,python的作业做在下面一个帖子里面了。
回复 支持 反对

使用道具 举报

0

主题

13

帖子

93

积分

注册会员

Rank: 2

积分
93
发表于 2017-1-14 22:39:46 来自手机 | 显示全部楼层
本帖最后由 tingting 于 2017-1-30 21:45 编辑

121-R/python-婷         年底事情实在太多,python基础补得差不多了,但是确实还来不及做题,r的书还没看,这周作业又没空做了,年前一定把所有作业全部补上,绝对不能把今年的事情拖到明年!

作业还是拖到了正月初一。

看了86分钟版的python解题详解,收获很大,能够理解老师的思路,自己吸收掌握老师的方法和思路还需要多加练习。这道题我自己依然没有自己的思路,所以都是按照老师的思路来写的,1月29日凌晨边看视频边敲了一遍代码,1月30日晚上自己默写了一遍代码,大多数还记得比较清楚,少数没写对的按照老师的修正了,结果很正常。总之,这道题比第一题按照老师的一步一步照抄还是有进步的!

思路照抄老师的,就不多说了。
把自己默写的代码和跑出来的结果放在下面,算是交作业了!(没有用buffer的方法,虽然感觉自己已经听懂了老师的视频,但是用buffer还没有那么熟练,而且用了测试数据,所以没有用buffer,以后再尝试用吧)


[Python] 纯文本查看 复制代码
import sys
import re
from collections import OrderedDict
import time

start = time.clock()

sum_atgc = OrderedDict()
bases = ['A','T','G','C','N']


with open('F:test','rt') as f:
    for line in f:
        line = line.rstrip()
        if line.startswith('>'):
            chr_id = line[1:]
            sum_atgc[chr_id]={}
            for base in bases:
                sum_atgc[chr_id][base]=0
        else:
            line = line.upper()
            for base in bases:
                sum_atgc[chr_id][base] += line.count(base)
end = time.clock()
                
for chr_id,atgc_count in sum_atgc.items(): 
    SUM= sum(atgc_count.values())
    GC= sum_atgc[chr_id]['G']+ sum_atgc[chr_id]['C']
    print chr_id
    for base in bases:
        print "%s : %s"%(base,atgc_count[base])
    print 'SUM:%s'%(SUM)
    print 'GC%%:%s%%'%(GC*100/SUM)
    print '-'*30
print "used %ss"%(end-start)
    
    




结果如下:
chr_1
A : 13
T : 10
G : 10
C : 7
N : 4
SUM:44
GC%:38%
------------------------------
chr_2
A : 11
T : 6
G : 8
C : 5
N : 4
SUM:34
GC%:38%
------------------------------
chr_3
A : 10
T : 6
G : 10
C : 3
N : 4
SUM:33
GC%:39%
------------------------------
chr_4
A : 9
T : 4
G : 7
C : 2
N : 3
SUM:25
GC%:36%
------------------------------
used 0.00104230785337s

又按照李老师的视频改了下,感觉简洁了一些:
[Python] 纯文本查看 复制代码
import sys
import re
from collections import OrderedDict
import time

start = time.clock()

sum_atgc = OrderedDict()

with open('F:test','rt') as f:
    for line in f:
        line = line.rstrip()
        if line.startswith('>'):
            chr_id = line[1:]
            sum_atgc[chr_id]=''
        else:
            sum_atgc[chr_id] += line
                
for chr_id,seq in sum_atgc.items(): 
    SUM= len(seq)
    seq = seq.upper()
    GC= seq.count('G')+ seq.count('C')
    N= seq.count('N')
    print chr_id
    print 'SUM:%s'%(SUM)
    print 'N%%:%s%%'%(N*100/SUM)
    print 'GC%%:%s%%'%(GC*100/(SUM-N))
    print '-'*30
    
end = time.clock()  
print "used %ss"%(end-start)


把N减掉以后算出来的GC含量明显升高:


chr_1
SUM:44
N%:9%
GC%:42%
------------------------------
chr_2
SUM:34
N%:11%
GC%:43%
------------------------------
chr_3
SUM:33
N%:12%
GC%:44%
------------------------------
chr_4
SUM:25
N%:12%
GC%:40%
------------------------------
used 0.00186416866654s



回复 支持 反对

使用道具 举报

1

主题

3

帖子

90

积分

注册会员

Rank: 2

积分
90
发表于 2017-1-14 22:57:38 | 显示全部楼层
本帖最后由 mark_nuli 于 2017-1-15 08:13 编辑

#022-python#

这是一个利用python统计字符串的问题
首先将不同行的碱基合并
seq=''
with open('name.fa','r',)as f:
    for line in f:
        line=line.rstrip()
        if line.startswith('>'):
            name=line
            continue
        seq+=line
统计字符
seqs=seq.upper()
print name
print seqs.count('N')/len(seqs),
print (seqs.count('C')+seqs.count('G'))*1.0/(len(seqs)-seqs.count('N'))

这是受到论坛坛友的启发,觉得这个代码非常简洁,就学习过来了
回复 支持 反对

使用道具 举报

0

主题

4

帖子

164

积分

注册会员

Rank: 2

积分
164
发表于 2017-1-15 00:12:03 | 显示全部楼层
197 R+python-davidwang
[Python] 纯文本查看 复制代码
file = open('GCA_000002495.2_MG8_genomic.fna','r')
sum_argv = {}
bases = ['A','T','G','C','N']
for line in file:
    if line.startswith('>'):
        chr_id = line[1:]
        sum_argv[chr_id] = {}
        for base in bases:
            sum_argv[chr_id][base]=0
    else:
        line = line.upper()
        for base in bases:
            sum_argv[chr_id][base] += line.count(base)
file.close()
for chr_id, atgc_count in sum_argv.items():
    GC = atgc_count['G']+atgc_count['C']
    SUM = sum(atgc_count.values())
    print(chr_id)
    for base in bases:
        print('{}:{}'.format(base,atgc_count[base]))
    print('SUM:{}'.format(SUM))
    print('GC:{}%'.format('%.2f'%(GC*100.0/SUM)))
    print('N:{}%'.format('%.2f'%(atgc_count['N']*100.0/SUM)) if atgc_count['N'] !=0 else 'N比例为0')

刚开始接触python,学习老师的视频了解了一些分析问题的思想,如何合理利用资源去写代码解决问题,我主要对我研究的真菌的基因组的信息进行染色体碱基个数,及GC,N比例的分析:1逐行读取文件,2构建字典表,对碱基进行统计,遍历字典表,输出数据。受益良多!!!
回复 支持 反对

使用道具 举报

0

主题

3

帖子

137

积分

注册会员

Rank: 2

积分
137
发表于 2017-1-15 01:10:34 | 显示全部楼层
112 perl+Python 兴旺 perl对我来说的确很生涩,相较而言,Python学起来相对容易一些,最近正在加紧学习《Learn Python The Hard Way》,基本看到一半,如上周承诺的一样,将于下周周末前一并完成第一题和第二题,对了,东野大神的Python入门视频真心不错。
回复 支持 反对

使用道具 举报

1

主题

8

帖子

102

积分

注册会员

Rank: 2

积分
102
发表于 2017-1-15 01:16:02 | 显示全部楼层
本帖最后由 kkshaxqd 于 2017-1-15 10:39 编辑

[Perl] 纯文本查看 复制代码
#!/usr/bin/perl use strict;
my $x1=$ARGV[0];
my ($chr,$len,$gc,$n,$count_A,$count_T,$count_C,$count_G,$count_N,%count_A, %count_T, %count_C, %count_G, %count_N);
open FILE, "$x1" or die $!;
print "chr\tLength\(bp\)\tA\(bp\)\tT\(bp\)\tC\(bp\)\tG\(bp\)\tN\(bp\)\tN(%)\tGC(%)\n";
while(<FILE>){
chomp;
if ($_=~/^>(chr\S+)/){$chr=$1;}
 else{
 $count_A{$chr}+=($_=~tr/Aa//);
 $count_T{$chr}+=($_=~tr/Tt//);
 $count_C{$chr}+=($_=~tr/Cc//);
 $count_G{$chr}+=($_=~tr/Gg//);
 $count_N{$chr}+=($_=~tr/Nn//);
 }
 }
 foreach $chr (sort keys %count_A){
$len=($count_A{$chr} + $count_T{$chr} + $count_C{$chr} + $count_G{$chr} + $count_N{$chr});
$gc=(($count_C{$chr}+$count_G{$chr})/$len)*100;
$n=($count_N{$chr}/$len)*100;
printf "%s\t%d\t%d\t%d\t%d\t%d\t%d\t%.2f\t%.2f\n","$chr","$len","$count_A{$chr}","$count_T{$chr}","$count_C{$chr}","$count_G{$chr}","$count_N{$chr}","$n","$gc";
}
close FILE;

计算结果如下:chr        Length(bp)        A(bp)        T(bp)        C(bp)        G(bp)        N(bp)        N(%)        GC(%)
chr1        249250621        65570891        65668756        47024412        47016562        23970000        9.62        37.73
chr10        135534747        38330752        38376915        27308648        27298423        4220009        3.11        40.29
chr11        135006516        38307244        38317436        27236798        27268038        3877000        2.87        40.37
chr11_gl000202_random        40103        9226        8978        11254        10645        0        0.00        54.61
chr12        133851895        38604831        38624517        26634995        26617050        3370502        2.52        39.78
chr13        115169878        29336945        29425459        18412698        18414776        19580000        17.00        31.98
chr14        107349540        25992966        26197495        18027132        18071947        19060000        17.76        33.63
chr15        102531392        23620876        23597921        17247582        17228387        20836626        20.32        33.62
chr16        90354753        21724083        21828642        17630040        17701988        11470000        12.69        39.10
chr17        81195210        21159933        21206981        17727956        17700340        3400000        4.19        43.63
chr17_ctg5_hap1        1680828        429214        432922        355909        362783        100000        5.95        42.76
chr17_gl000203_random        37498        12564        12452        6074        6408        0        0.00        33.29
chr17_gl000204_random        81310        19702        17322        22701        21585        0        0.00        54.47
chr17_gl000205_random        174588        49255        52471        36716        36146        0        0.00        41.73
chr17_gl000206_random        41001        8770        10463        10483        11285        0        0.00        53.09
chr18        78077248        22465380        22489493        14838685        14863671        3420019        4.38        38.04
chr18_gl000207_random        4262        1004        1385        588        1285        0        0.00        43.95
chr19        59128983        14390632        14428951        13478255        13511145        3320000        5.61        45.64
chr19_gl000208_random        92689        29179        28602        18369        16539        0        0.00        37.66
chr19_gl000209_random        159169        43978        41183        35443        38565        0        0.00        46.50
chr1_gl000191_random        106433        27971        31264        23785        23413        0        0.00        44.35
chr1_gl000192_random        547496        163078        157247        112730        114441        0        0.00        41.49
chr2        243199373        71102632        71239379        47915465        47947042        4994855        2.05        39.42
chr20        63025520        16523053        16725227        13107828        13149412        3520000        5.59        41.66
chr21        48129895        10422924        10348785        7160212        7174721        13023253        27.06        29.78
chr21_gl000210_random        27682        6288        6317        7726        7251        100        0.36        54.10
chr22        51304566        9094775        9054551        8375984        8369235        16410021        31.99        32.64
chr3        198022430        58713343        58760485        38653197        38670110        3225295        1.63        39.05
chr4        191154276        57932980        57952068        35885806        35890822        3492600        1.83        37.55
chr4_ctg9_hap1        590426        185171        190487        107556        107212        0        0.00        36.38
chr4_gl000193_random        189789        53509        55056        40616        40608        0        0.00        42.80
chr4_gl000194_random        191469        52949        55693        41521        41306        0        0.00        43.26
chr5        180915260        53672554        53804137        35089383        35129186        3220000        1.78        38.81
chr6        171115067        50554433        50533923        33143287        33163423        3720001        2.17        38.75
chr6_apd_hap1        4622290        660350        640840        509167        510390        2301543        49.79        22.06
chr6_cox_hap2        4795371        1341236        1311570        1069806        1072759        0        0.00        44.68
chr6_dbb_hap3        4610396        1172535        1142951        943550        945266        406094        8.81        40.97
chr6_mann_hap4        4683263        1156084        1134193        903022        907442        582522        12.44        38.66
chr6_mcf_hap5        4833398        1050968        1024227        858581        861135        1038487        21.49        35.58
chr6_qbl_hap6        4611984        1189669        1168711        967043        969902        316659        6.87        42.00
chr6_ssto_hap7        4928567        1172219        1156168        918220        926944        755016        15.32        37.44
chr7        159138663        45997757        46047257        31671670        31636979        3785000        2.38        39.78
chr7_gl000195_random        182896        53469        55057        37021        37349        0        0.00        40.66
chr8        146364022        42767293        42715025        28703983        28702621        3475100        2.37        39.22
chr8_gl000196_random        38914        13843        9642        7910        7519        0        0.00        39.65
chr8_gl000197_random        37175        8644        8408        9883        10140        100        0.27        53.86
chr9        141213431        35260078        35243882        24826212        24813259        21070000        14.92        35.15
chr9_gl000198_random        90085        27843        28140        15617        18485        0        0.00        37.86
chr9_gl000199_random        169874        54702        50765        34981        29426        0        0.00        37.91
chr9_gl000200_random        187035        55353        56966        37202        37514        0        0.00        39.95
chr9_gl000201_random        36148        7101        7560        10373        11114        0        0.00        59.44
chrM        16571        5113        4086        5192        2180        0        0.00        44.49
chrUn_gl000211        166566        50926        51165        31968        32507        0        0.00        38.71
chrUn_gl000212        186858        52729        51193        42454        40482        0        0.00        44.38
chrUn_gl000213        164239        48047        49015        33831        33346        0        0.00        40.90
chrUn_gl000214        137718        40645        39891        27484        29698        0        0.00        41.52
chrUn_gl000215        172545        50334        49738        36250        36223        0        0.00        42.00
chrUn_gl000216        172294        41409        58566        46717        25602        0        0.00        41.97
chrUn_gl000217        172149        51945        55495        32578        32131        0        0.00        37.59
chrUn_gl000218        161147        46030        48047        33296        33774        0        0.00        41.62
chrUn_gl000219        179198        54530        53059        35501        36108        0        0.00        39.96
chrUn_gl000220        161802        37230        46155        40720        37697        0        0.00        48.46
chrUn_gl000221        155397        47915        47444        29886        30152        0        0.00        38.64
chrUn_gl000222        186861        51533        53158        40866        41304        0        0.00        43.97
chrUn_gl000223        180455        52931        49568        38849        39107        0        0.00        43.20
chrUn_gl000224        179693        50248        51660        37430        40355        0        0.00        43.29
chrUn_gl000225        211173        56943        53599        48931        51700        0        0.00        47.65
chrUn_gl000226        15008        4502        4649        2626        3231        0        0.00        39.03
chrUn_gl000227        128374        41076        34652        26250        26396        0        0.00        41.01
chrUn_gl000228        129120        30512        28967        35495        34146        0        0.00        53.94
chrUn_gl000229        19913        3983        5944        5385        4601        0        0.00        50.15
chrUn_gl000230        43691        12678        12789        9338        8886        0        0.00        41.71
chrUn_gl000231        27386        7100        8054        6203        6029        0        0.00        44.67
chrUn_gl000232        40652        11534        12116        8490        8512        0        0.00        41.82
chrUn_gl000233        45941        12192        14260        9504        9985        0        0.00        42.42
chrUn_gl000234        40531        10797        12277        8725        8732        0        0.00        43.07
chrUn_gl000235        34474        11845        9530        6585        6514        0        0.00        38.00
chrUn_gl000236        41934        13006        11470        8432        9026        0        0.00        41.63
chrUn_gl000237        45867        12273        12191        10241        11162        0        0.00        46.66
chrUn_gl000238        39939        10404        13559        7805        8171        0        0.00        40.00
chrUn_gl000239        33824        9221        9246        7268        8089        0        0.00        45.40
chrUn_gl000240        41933        13601        10490        8962        8880        0        0.00        42.55
chrUn_gl000241        42152        13620        12815        7864        7853        0        0.00        37.29
chrUn_gl000242        43523        10591        11869        10033        11030        0        0.00        48.40
chrUn_gl000243        43341        10728        12673        10304        9636        0        0.00        46.01
chrUn_gl000244        39929        10948        11560        8564        8857        0        0.00        43.63
chrUn_gl000245        36651        12875        10467        6707        6602        0        0.00        36.31
chrUn_gl000246        38154        10440        12968        7354        7392        0        0.00        38.65
chrUn_gl000247        36422        11002        9540        7794        8086        0        0.00        43.60
chrUn_gl000248        39786        10114        11507        9265        8900        0        0.00        45.66
chrUn_gl000249        38502        10793        9698        8978        9033        0        0.00        46.78
chrX        155270560        45648952        45772424        29813353        29865831        4170000        2.69        38.44
chrY        59373566        7667625        7733482        5099171        5153288        33720000        56.79        17.27
hg19.fa中人类染色体各碱基基本情况统计如上。
024-perl

回复 支持 反对

使用道具 举报

0

主题

8

帖子

179

积分

注册会员

Rank: 2

积分
179
发表于 2017-1-15 02:41:14 | 显示全部楼层
028-Python-Ryu
解题思路:
1.读取fasta文件,fasta文件每个不同的序列开头都有一个“>”号,因此可作为不同染色体的标记
2.统计序列长度使用len(),统计N、G、C个数使用.count()
3.一开始时考虑像李恒的readfq那样,先将序列存入一个变量,最后再统计,但是考虑需要内存以及速度较慢,最后直接每行处理,比较节省内存

完成代码后,再看老师的视频,最后再修改了一下自己的代码,主要是格式化输出以及计算GC含量时取出N的数目再计算。老师介绍的pysam很不错,又学习到新的知识!赞!

明天再做一下统计蛋白编码区的题目。

代码如下:
[Python] 纯文本查看 复制代码
hg19_reference='hg19.fa'
# hg19_reference="test.fa"


with open(hg19_reference,'r')as genome,open("summary.txt",'w')as result:

    result.write("\t".join(("chromosome","length","N number","N percent","GC number","GC percent","\n")))
    summary=["",0.0,0.0,0.0] # chrom, length, #N, #GC
    for line in genome:
        # print(line)
        if line.startswith(">"):
            if summary[0] != "":
                len_seq="%d" % summary[1]
                len_N="%d" % summary[2]
                percent_N="%.02f" % (summary[2]/summary[1])
                len_GC="%d" % summary[3]
                percent_GC="%.02f" % (summary[3]/(summary[1]-summary[2]))
                result.write("\t".join((summary[0],len_seq,len_N,percent_N,len_GC,percent_GC,"\n")))
            print(line)
            summary=["",0.0,0.0,0.0]
            summary[0]=line.strip()
        else:
            summary[1]+=len(line.strip())
            summary[2]+=line.count("N")
            summary[3]+=line.count("G")+line.count("C")+line.count("g")+line.count("c")
    len_seq="%d" % summary[1]
    len_N="%d" % summary[2]
    percent_N="%.02f" % (summary[2]/summary[1])
    len_GC="%d" % summary[3]
    percent_GC="%.02f" % (summary[3]/(summary[1]-summary[2]))
    result.write("\t".join((summary[0],len_seq,len_N,percent_N,len_GC,percent_GC,"\n")))


运行时间在我的笔记本上大约2分钟左右
2017-01-15 02-22-02屏幕截图.png
最后结果如下:
[Plain Text] 纯文本查看 复制代码
chromosome	length	N number	N percent	GC number	GC percent
>chr10	135534747	4220005	0.03	54607071	0.42
>chr11	135006516	3877000	0.03	54504836	0.42
>chr11_gl000202_random	40103	0	0	21899	0.55
>chr12	133851895	3370501	0.03	53252045	0.41
>chr13	115169878	19580000	0.17	36827474	0.39
>chr14	107349540	19060000	0.18	36099079	0.41
>chr15	102531392	20836623	0.2	34475969	0.42
>chr16	90354753	11470000	0.13	35332028	0.45
>chr17_ctg5_hap1	1680828	100000	0.06	718692	0.45
>chr17	81195210	3400000	0.04	35428296	0.46
>chr17_gl000203_random	37498	0	0	12482	0.33
>chr17_gl000204_random	81310	0	0	44286	0.54
>chr17_gl000205_random	174588	0	0	72862	0.42
>chr17_gl000206_random	41001	0	0	21768	0.53
>chr18	78077248	3420015	0.04	29702356	0.4
>chr18_gl000207_random	4262	0	0	1873	0.44
>chr19	59128983	3320000	0.06	26989400	0.48
>chr19_gl000208_random	92689	0	0	34908	0.38
>chr19_gl000209_random	159169	0	0	74008	0.46
>chr1	249250621	23970000	0.1	94040974	0.42
>chr1_gl000191_random	106433	0	0	47198	0.44
>chr1_gl000192_random	547496	0	0	227171	0.41
>chr20	63025520	3520000	0.06	26257240	0.44
>chr21	48129895	13023203	0.27	14334933	0.41
>chr21_gl000210_random	27682	100	0	14977	0.54
>chr22	51304566	16410004	0.32	16745219	0.48
>chr2	243199373	4994851	0.02	95862507	0.4
>chr3	198022430	3225294	0.02	77323307	0.4
>chr4_ctg9_hap1	590426	0	0	214768	0.36
>chr4	191154276	3492600	0.02	71776628	0.38
>chr4_gl000193_random	189789	0	0	81224	0.43
>chr4_gl000194_random	191469	0	0	82827	0.43
>chr5	180915260	3220000	0.02	70218569	0.4
>chr6_apd_hap1	4622290	2301543	0.5	1019557	0.44
>chr6_cox_hap2	4795371	0	0	2142565	0.45
>chr6_dbb_hap3	4610396	406094	0.09	1888816	0.45
>chr6	171115067	3720000	0.02	66306710	0.4
>chr6_mann_hap4	4683263	582522	0.12	1810464	0.44
>chr6_mcf_hap5	4833398	1038487	0.21	1719716	0.45
>chr6_qbl_hap6	4611984	316659	0.07	1936945	0.45
>chr6_ssto_hap7	4928567	755016	0.15	1845164	0.44
>chr7	159138663	3785000	0.02	63308649	0.41
>chr7_gl000195_random	182896	0	0	74370	0.41
>chr8	146364022	3475100	0.02	57406604	0.4
>chr8_gl000196_random	38914	0	0	15429	0.4
>chr8_gl000197_random	37175	100	0	20023	0.54
>chr9	141213431	21070000	0.15	49639471	0.41
>chr9_gl000198_random	90085	0	0	34102	0.38
>chr9_gl000199_random	169874	0	0	64407	0.38
>chr9_gl000200_random	187035	0	0	74716	0.4
>chr9_gl000201_random	36148	0	0	21487	0.59
>chrM	16571	0	0	7372	0.44
>chrUn_gl000211	166566	0	0	64475	0.39
>chrUn_gl000212	186858	0	0	82936	0.44
>chrUn_gl000213	164239	0	0	67177	0.41
>chrUn_gl000214	137718	0	0	57182	0.42
>chrUn_gl000215	172545	0	0	72473	0.42
>chrUn_gl000216	172294	0	0	72319	0.42
>chrUn_gl000217	172149	0	0	64709	0.38
>chrUn_gl000218	161147	0	0	67070	0.42
>chrUn_gl000219	179198	0	0	71609	0.4
>chrUn_gl000220	161802	0	0	78417	0.48
>chrUn_gl000221	155397	0	0	60038	0.39
>chrUn_gl000222	186861	0	0	82170	0.44
>chrUn_gl000223	180455	0	0	77956	0.43
>chrUn_gl000224	179693	0	0	77785	0.43
>chrUn_gl000225	211173	0	0	100631	0.48
>chrUn_gl000226	15008	0	0	5857	0.39
>chrUn_gl000227	128374	0	0	52646	0.41
>chrUn_gl000228	129120	0	0	69641	0.54
>chrUn_gl000229	19913	0	0	9986	0.5
>chrUn_gl000230	43691	0	0	18224	0.42
>chrUn_gl000231	27386	0	0	12232	0.45
>chrUn_gl000232	40652	0	0	17002	0.42
>chrUn_gl000233	45941	0	0	19489	0.42
>chrUn_gl000234	40531	0	0	17457	0.43
>chrUn_gl000235	34474	0	0	13099	0.38
>chrUn_gl000236	41934	0	0	17458	0.42
>chrUn_gl000237	45867	0	0	21403	0.47
>chrUn_gl000238	39939	0	0	15976	0.4
>chrUn_gl000239	33824	0	0	15357	0.45
>chrUn_gl000240	41933	0	0	17842	0.43
>chrUn_gl000241	42152	0	0	15717	0.37
>chrUn_gl000242	43523	0	0	21063	0.48
>chrUn_gl000243	43341	0	0	19940	0.46
>chrUn_gl000244	39929	0	0	17421	0.44
>chrUn_gl000245	36651	0	0	13309	0.36
>chrUn_gl000246	38154	0	0	14746	0.39
>chrUn_gl000247	36422	0	0	15880	0.44
>chrUn_gl000248	39786	0	0	18165	0.46
>chrUn_gl000249	38502	0	0	18011	0.47
>chrX	155270560	4170000	0.03	59679184	0.39
>chrY	59373566	33720000	0.57	10252459	0.4


代码和结果已上传Github,欢迎小伙伴们与我讨论,谢谢。
回复 支持 2 反对 0

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-19 22:21 , Processed in 0.057424 second(s), 22 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.