搜索
查看: 2029|回复: 7

TCGA提取差异lncRNA

[复制链接]

6

主题

36

帖子

439

积分

中级会员

Rank: 3Rank: 3

积分
439
发表于 2017-3-11 19:01:47 | 显示全部楼层 |阅读模式
有同学做TCGA数据分析希望提取lncRNA,这里我就小讲一下俺的方法吧。俩个文件,一个差异分析后的结果文件,一个是从genecode下载的lncRNA的注释文件,gtf格式。。我们打开来看一下。之后我们就开始提取差异的lncRNA。
站代码了
[Python] 纯文本查看 复制代码
import os 
import re
os.chdir('F:/生信菜鸟团讲课/生信菜鸟团作业')
#先处理GTF文件,lncRNA存入列表
lnc_list=[]
with open("gencode.v25.long_noncoding_RNAs.gtf",'r') as f_gtf:
    for line in f_gtf:
        if line.startswith('#'):
            continue            
        line=line.strip('\n').split('\t')
        genetype=line[2]
        geneattr=line[8]
        if genetype=="gene":
            lnc_RNA=re.search(r'gene_name "([^;]+)";?', geneattr).group(1)
            lnc_list.append(lnc_RNA)
#print(lnc_list)            
gene_dic={}
    #处理差异分析文件,sss。txt为上面excel粘贴下来的
with open("sss.txt",'r') as f_diff:    for line in f_diff:
        line=line.split('\t')
        genename=line[0]
        #print(genename)
        if genename in lnc_list:
            gene_dic[genename]=line


with open('lnc_rna_result.txt','w') as f3:
    for i in gene_dic.values():
        f3.write(i[0]+'\t'+i[1]+"\t"+i[2]+'\t'+i[3]+'\n')


最后的得到差异的lncRNA以供后续分析。。最后补一句无关的,有没有打守望屁股的,带俺上分。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

0

主题

3

帖子

69

积分

注册会员

Rank: 2

积分
69
发表于 2017-3-12 20:13:00 | 显示全部楼层
本帖最后由 不动大冥王 于 2017-3-13 08:53 编辑

在网上搜索后了解到rtracklayer包可以读取gtf格式的文件。在R上尝试了一下楼主的做法,用的自己的数据。
[Python] 纯文本查看 复制代码
biocLite("rtracklayer")
myGTF <- "gencode.v25.long_noncoding_RNAs.gtf"
newGTF <- import(myGTF)
head(newGTF$gene_id ) 
head(newGTF$gene_type)
a<-cbind(newGTF$gene_id,newGTF$gene_name,newGTF$gene_type)
for (i in 1:length(a[,1])){
  a[,1][i]=sub('..$','',a[,1][i])
}
colnames(a)<-c("geneid","genename","genetype")
b<-read.table(file="merged.txt")
lncrna=merge(a,b,by="geneid")

这里提取geneid是因为基因名格式是ENG类的。
回复 支持 1 反对 0

使用道具 举报

633

主题

1172

帖子

3947

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
3947
发表于 2017-3-11 21:41:46 | 显示全部楼层
前面的图片设置的很魔性,不过总体来说还是不错的,提取基因名
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

6

主题

36

帖子

439

积分

中级会员

Rank: 3Rank: 3

积分
439
 楼主| 发表于 2017-3-11 22:02:11 | 显示全部楼层
Jimmy 发表于 2017-3-11 21:41
前面的图片设置的很魔性,不过总体来说还是不错的,提取基因名

谢群主指点,继续努力
回复 支持 反对

使用道具 举报

0

主题

3

帖子

69

积分

注册会员

Rank: 2

积分
69
发表于 2017-3-12 15:36:52 | 显示全部楼层
本帖最后由 不动大冥王 于 2017-3-13 08:51 编辑

gtf格式用r,怎么打开?编辑掉,已经解决了
回复 支持 反对

使用道具 举报

6

主题

36

帖子

439

积分

中级会员

Rank: 3Rank: 3

积分
439
 楼主| 发表于 2017-3-12 22:54:23 | 显示全部楼层
不动大冥王 发表于 2017-3-12 20:13
在网上搜索后了解到rtracklayer包可以读取gtf格式的文件。在R上尝试了一下楼主的做法,用的自己的数据。
[m ...

可以的,兄弟,很强
回复 支持 反对

使用道具 举报

6

主题

36

帖子

439

积分

中级会员

Rank: 3Rank: 3

积分
439
 楼主| 发表于 2017-3-14 11:52:39 | 显示全部楼层
我写的这篇帖子有一个缺陷,就是会有漏网之鱼的lnc没被提取出来,我考虑可能有些探针太新而genncode没有注释到。
回复 支持 反对

使用道具 举报

0

主题

20

帖子

283

积分

中级会员

Rank: 3Rank: 3

积分
283
发表于 2018-2-1 17:28:28 | 显示全部楼层
请教一下,这个差异的lncRNA是用什么方法做的,有没有现成的软件
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-2-23 06:11 , Processed in 0.119766 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.