搜索
查看: 2132|回复: 1

[lncRNA-seq] lncRNA基础篇--“命名规则

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-12-22 17:44:43 | 显示全部楼层 |阅读模式
对于人类基因命名标准的制定而言,雨果基因命名委员会(HGNC)是唯一官方授权的机构。小非编码RNA一般可根据它们的同源性及相同功能来分类。相比而言,长链非编码RNA则有其完全不同的一系列特点,它们的长度超过200个碱基,不具有保守序列的同源性,还有多变的功能属性。就像编码蛋白基因一样,长链非编码RNA也是尽量基于它们产物的已知功能来命名。为了帮助科研人员能有效地命名lncRNA,让他们的命名更规范,名字更能反映功能,HGNC制作了这么一个命名指导标准,供科研人员参考。

在一个长链非编码RNA要发表之前,研究人员应先得到HGNC的认可。

lncRNA命名指导标准

一条lncRNA要命名得合理准确,有一些原则需要去遵循,有许多的因素需要去注意。详细的命名原则及考虑因素如下:

每一条lncRNA的名字应具有唯一性

“名字唯一性”这条原则很重要,不能违反。它能让我们在研究分析某个基因时不会产生问题(不会发生这种事情:一条基因几个名字,存在重名的基因等)。另一方面,上述问题也不利于HGNC对命名规则的管理及维护。如果一个作者发布一个lncRNA名字,而它已经在别的地方使用过,HGNC将会指定一个新的名字供选择。例如,一个新的lncRNA,它的功能是维持上皮细胞在非分化状态,本来打算命名为ANCR,但是这个名字已经被使用于“快乐木偶 综合症染色体区,Angelman syndrome chromosome region”,所以与作者达成一致,用DANCR来命名这个lncRNA“ differentiation antagonizing non-protein coding RNA”。

lncRNA的名字应是描述基因的缩写

每条lncRNA的标识都应是一个描述该基因的“缩写”或者“首字母简写”。

例如BANCR就是由‘BRAF-activated non-protein coding RNA’短语的首字母排列而成。这样让人们容易理解名字的含义。

lncRNA的名字应仅由拉丁字母和阿拉伯数字组成

每条lncRNA的标识中不应出现标点符号,但可以用字母或者数字来代替标点符号。

连字符仅在特殊场合使用。例如:反义编码蛋白基因可在标识中加连字符(BACE1-AS就是BACE1 antisense RNA的名字)。

lncRNA的名字中的字母应为大写

为了与其它种类物种的基因区别开来(如啮齿动物基因的标识只要求首字母大写,其余小写),人类基因标识中的字母都应为大写。

例如“热气”(HOTAIR)基因,在人类中叫HOTAIR,而在老鼠中写成Hotair。

lncRNA的名字中不应涉及具体的物种类型

例如:如果基因名字中有H/h(代表人类),由于牵涉到同源基因的问题,就会造成一些疑惑和误导。

lncRNA的标识应避免采用一些常用的词汇

基因的名字中出现的常用词汇会带来一些混乱,给分析研究带来很多问题,因此,在命名中应避免出现常见词汇。

例如:“AIRN”基因最初公布时叫‘AIR’,从公共数据库中搜索可得到22万条不相关的信息,而搜索“AIRN”则只有10条信息。可见“AIRN”的搜索效率有效得多。同样的例子很多。

lncRNA的标识应尽可能的反映其功能

例如:'XIST'基因是'X(inactive)-specific transcript'的缩写,该基因的作用是参与沉默一对X染色体的转录。

命名的时候尽量反映基因通常的功能,而不体现其突变表型。基因的命名应简洁明了,不应包含太多信息。
  ● 基因的标识中不应具有攻击或轻蔑的色彩。
  ● 基因的标识中不应具有个人及地方色彩。
  ● 基因的标识中不应含有神化,虚构或历史人物的名字。
  ● 基因的标识中不应含有“臆想”和没什么意义的信息。

功能性转录假基因应包含它们假基因的名字

目前,一些数量较少的转录假基因被发现具有功能性,例如PTENP1基因就与“PTEN-targeting”miRNA结合一起参与调节PTEN的表达水平。

具有功能的转录假基因在命名时应保留它们的假基因名称,并且不应改变其基于功能的名称。为了方便搜索,这个功能应加在标识的最后。PTENP1的命名就是这方面的例子。PTENP1是‘phosphatase and tensin homolog pseudogene 1 (functional)’。

如何命名未知功能的基因应遵循如下要求

未知功能的lncRNA应依据基因组上下文来命名,图中给出如何系统化的命名的规则。


如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:
  ● 反义 (antisense,AS),BACE1-AS;
  ● 内含子(intronic,IT),例如,SPRY4-IT1;
  ● 重叠 (overlapping,OT),例如,OSX2-OT;
  ● 长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。

上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。





上一篇:文献整理-27种肿瘤TMB与免疫治疗响应率的关系图
下一篇:研究生第一篇论文常出现的9个问题
回复

使用道具 举报

12

主题

28

帖子

805

积分

高级会员

Rank: 4

积分
805
发表于 2017-12-22 19:48:34 | 显示全部楼层
本帖最后由 mckf111 于 2017-12-22 19:49 编辑

Please add reference below or label 'repost/reproduction' in your title:

Wright, M. W. (2014). A short guide to long non-coding RNA gene nomenclature. Human Genomics. 8(1): 7.


Welcome to my blog: http://bioinfostar.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-8-23 11:32 , Processed in 0.029534 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.