搜索
查看: 2382|回复: 4

[mRNA-seq] 小白生信学习记(一)转录组基本知识及简单的linux命令

[复制链接]

33

主题

46

帖子

226

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
226
发表于 2017-2-1 20:55:28 | 显示全部楼层 |阅读模式
注:本文是生信媛微信公众号原创文章
作者:生物女博士
原文链接:
http://mp.weixin.qq.com/s/RYTLkKpDzgD-8nqdAP9IjQ

这是小白来到这个课题组的第一天。
        为了让小白更快融入实验室,老师让小白跟着师姐一起完成一个转录组数据的分析。
        在听完老师的介绍后,小白有点蒙。什么叫转录组测序?什么是二代测序?他快速记下关键词后,开始了网上搜索。

(一)什么叫转录组测序?
        首先,来回顾一下中心法则:
        DNA可以在转录复合体的作用下,转录成多种RNA (rRNA、lncRNA、small RNA、tRNA、mRNA等),其中mRNA后续会翻译成肽链,折叠成有功能的蛋白质。
       转录组顾名思义,就是细胞内所有转录产物的集合。而狭义的转录组测序,其实就是对mRNA进行测序和分析。

       但是,细胞里面有那么多的物质,如何单独把我们想要的这部分mRNA纯化出来呢?
       原来,真核生物mRNA在3'端具有polyA(即在3’端有很多的碱基“A”)结构特点,如图(参考资料1):
    因为A能通过氢键与T有较强的亲和性,所以,合成一条含多个T的短序列(oligo dT),把它一头固定在某种基质上,他就可以通过亲和能力(想象它像一个磁铁),把含有polyA的这部分mRNA给拉取得到。这样,我们就能富集到mRNA了。
       这时候该测序了吧?其实不是。由于RNA的化学性质不稳定,容易降解,所以在实际测序的时候,先通过体外逆转录的方法,把RNA转化成cDNA,再进行测序。

(二)什么是二代测序?
      
       二代测序曾经出现过多种测序平台,但目前可以说,illumina是一家独大。
       illumina的测序原理简单介绍如图(参考资料2):
       先把DNA打碎成一定大小的片段,然后纯化。这些纯化后的DNA片段在两端会被接上一段接头序列。紧接着,它们就被固定到一种基质上(flow cell)并且成簇(每一簇是来自同一条DNA分子),然后,把引物加上,开始测序。
        每一轮的带不同荧光的dNTP被加进去后,机器就会拍一张照片,并读取此时每个簇的荧光是什么颜色,并转换成对应的碱基(并且会告诉你这个碱基的测序质量如何),然后把这些信息存储起来。所以我们到手的序列将是这样的:

         名字:其实就是某条被测序的DNA的一个识别称号,否则,那么多序列一下子蹦出来,就天下大乱了。
         测序的DNA分子序列:就是我们想要的序列。
         第三行那个“+”是什么意思呢?单独的“+”没有什么具体含义,但其后面可以添加一些描述信息。
         第四行则是刚提到的,对应第二行碱基的质量值。根据评分体系的不同,每个字符的含义表示的数字也不相同。它是用ACSII码表示。
        有兴趣的朋友,可以自己先百度一下fastq格式,有很多文章都给出具体介绍,这里就不赘述了。
       除了二代测序,一代测序其实也广为使用。一代的特点是读长长(约800bp),而二代则是读长短(目前常见150bp左右),但通量高。而近些年的以PacBio为代表的三代测序,以读长特长(号称平均能达到10000bp,最长20000bp)的特点,在复杂基因组和一些全长转录组等方面有独特的优势。
       拿到序列之后,还需要通过许多计算方法(用软件完成),把这些序列跟基因组进行比对,看看他们属于基因组的哪个位置,这个过程我们称为mapping。再进一步分析拿到差异表达的基因。这些,我们再后续课程都会给大家详细介绍,并且带着大家用软件完成这个分析过程。
     
(三)Linux命令入门
        数据处理大多在Linux/unix系统下进行操作。Linux界面大概是长成这个样子的:

        为什么不做成像Windows或者Mac那样美观、友好的图形界面?为什么不弄得像office软件这么直观容易上手?
        其实Linux也是可以有图形的(但我还没用过)。
        生物信息学一般计算量很大,需要用到像服务器这样运算能力很强的设备。服务器好多都是Linux系统。Linux作为服务器有它独到的优势(参考资料3):
      1.稳定的系统;
      2.安全,漏洞快速修补:由于是开源的系统,且支持者众,因此可以随时获得安全信息和随时更新。
      3.多任务,多用户
      4.省内存。
     而命令行的操作也有许多好处。举个栗子:
      请想象这个表格向右向下无限延伸,而你的任务是,把A的1到3行,和B的1到3行做柱形图,如果只有几组数据,那么excel是可以轻松胜任的。假如,你需要如此从1到3,从4到6……如此往下,做A列和B列柱形图,那么是非常耗时费力的。此时你只要在命令行写几句代码,你就可以坐等结果了。嗯,想想是不是还有点小激动?这个以后也会教给大家。
        
        好,回到正题,今天教给大家几个最基础的linux命令:
假如已经进到你的系统,并且想知道你现在所在路径是什么,可以使用“pwd”来看看:
pwd
小白想新建一个自己的目录(文件夹)并命名为“xiaobai”方便以后工作:“mkdir”
mkdir xiaobai
新建文件夹后,他想进入这个目录,再新建一个叫work的目录:
cd xiaobai
mkdir work
这个时候,他想看看目录里有什么东西(当然暂时是什么都没有):ls
ls
他于是返回上一层目录
cd ..
再次查看xiaobai目录下有什么:(请仔细看一下跟之前提到的ls有什么差异呢?)
ls -l
他突然觉得work这个名字自己不喜欢,想更改一下,变成my_work
mv work my_work
改完以后,善变的小白还是觉得不满意,暂时想删掉:
rm my_work
是不是很简单?好了,今天就先到这里吧。
这次的作业:
1.安装一个linux双系统或者虚拟机
2.开始玩耍上面的简单linux命令

参考资料

1.《高通量测序与大数据分析》(诺禾致源科技服务部 编著)
2. illumina的测序原理:illumina官网
3.《鸟哥的Linux私房菜·基础学习篇(第三版)》
上述部分资料可在我的云盘下载:http://url.cn/43MSAoR


       文章篇幅有限,难以面面俱到。故需读者依据自己需求自行深入学习。有不懂之处可后台联系我们,讲尽力予以解答,并视情况,挑选有代表性问题进行详细讲解。
       初步打算如此,如有建议和疑问欢迎联系,让我们一起把这个系列变得更好更有助于大家入门!
       写作过程中难免有疏漏错误之处。恳请包容与指出问题所在,不胜感激!



欢迎到微信公众号订阅我们
生信媛
bio_sxy

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x



上一篇:用python爬取一个网站的所有生物信息学习资料,附代码
下一篇:小白生信学习记(二):服务器及其使用介绍
回复

使用道具 举报

0

主题

6

帖子

398

积分

中级会员

Rank: 3Rank: 3

积分
398
发表于 2017-2-20 20:54:05 | 显示全部楼层
收获良多,谢谢博主
回复 支持 反对

使用道具 举报

33

主题

46

帖子

226

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
226
 楼主| 发表于 2017-2-21 19:10:01 | 显示全部楼层
soooob 发表于 2017-2-20 20:54
收获良多,谢谢博主

能帮到你,我很开心。
回复 支持 反对

使用道具 举报

1

主题

43

帖子

542

积分

高级会员

Rank: 4

积分
542
发表于 2018-1-12 09:25:26 | 显示全部楼层
云盘密码???
回复

使用道具 举报

33

主题

46

帖子

226

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
226
 楼主| 发表于 2018-3-4 09:35:23 | 显示全部楼层
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树    

GMT+8, 2018-4-26 23:34 , Processed in 0.104244 second(s), 32 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.