搜索
查看: 1164|回复: 2

统计各种参考基因组的各条染色体的N含量

[复制链接]

619

主题

1113

帖子

3703

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3703
发表于 2016-12-13 16:55:10 | 显示全部楼层 |阅读模式
染色体里面的碱基一般只是ATCG这样正常的碱基,但是参考基因组毕竟不完美,比如人类的hg19参考基因组里面的chrY就高达36.38M的N碱基,而它全长还不到60M。如果计算覆盖度的时候没有能考虑到N这样的碱基,就会到底一些非常大的误差。
代码很简单,三五分钟就出结果了:
[AppleScript] 纯文本查看 复制代码
perl -alne '{if(/^>(.*?)\s/){$chr=$1}else{$N_count{$chr}+=($_=~tr/N//)}}END{print "$_\t$N_count{$_}" foreach sort{$a <=> $b} keys %N_count}'


结果是: 可以结合前面的算染色体的长度的题目来看:
1        23970000
1        23970000
2        4994855
3        3225292
4        3492600
5        3220000
6        3720001
7        3785000
8        3475100
9        21070000
10        4220009
11        3877000
12        3370502
13        19580000
14        19060000
15        20836626
16        11470000
17        3400000
18        3420019
19        3320000
20        3520000
21        13023253
22        16410021

Y        36389037

X        4170000







上一篇:GCTA-风云际会 可能是目前全球最具挑战性的竞赛之一 报道2
下一篇:我bwa index 到一半了,突然被中断,
回复

使用道具 举报

619

主题

1113

帖子

3703

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3703
 楼主| 发表于 2016-12-13 17:16:17 | 显示全部楼层
我勒个去,忘记说了,我的基因组里面的染色体是1,2,3前面没有chr标记,如果你的基因组染色体有chr标记,需要修改代码,很简单的,要学会自己思考
回复 支持 反对

使用道具 举报

0

主题

11

帖子

49

积分

新手上路

Rank: 1

积分
49
发表于 2017-7-13 15:48:26 | 显示全部楼层
学到了很多自己不知道和不知道的事,谢谢楼主
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|关于我们|手机版|小黑屋|生信技能树    

GMT+8, 2017-7-23 10:32 , Processed in 0.025537 second(s), 28 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.