搜索
查看: 9113|回复: 6

常用数据库ID表示方式

[复制链接]

2

主题

6

帖子

48

积分

新手上路

Rank: 1

积分
48
发表于 2016-10-19 17:32:55 | 显示全部楼层 |阅读模式
本帖最后由 月芈子 于 2016-10-19 17:41 编辑

本帖转载自:http://www.wtoutiao.com/p/1c6M3sK.html

常用数据库 ID
ID 示例ID 来源
ENSG00000116717Ensemble ID
GA45A_HUMANUniProtKB/Swiss-Prot, entry name
A5PJB2_BOVINUniProtKB/TrEMBL, entry name
A2BC19, P12345, A0A022YWF9UniProt, accession number
GLA, GLB, UGT1A1HGNC Gene Symbol
U12345, AF123456GenBank, NCBI, accession number
NT_123456, NM_123456, NP_123456RefSeq, NCBI, accession number
10598, 717Entrez ID, NCBI
uc001ett, uc031tla.1UCSC ID





Ensembl stable IDs

Ensembl stable ID 的结构是根据不同物种设置的前缀, 加上数据所指的类型, 如基因蛋白质, 再加上一系列的数字. 有的时候可以有不同的版本, 则在 Ensembl ID 后面加上小数点和版本号.


常用物种前缀

前缀学名
ENSCELCaenorhabditis elegans (Caenorhabditis elegans)
ENSCAFCanis lupus familiaris (Dog)
ENSDARDanio rerio (Zebrafish)
FBDrosophila melanogaster (Fruitfly)
ENSHomo sapiens (Human)
ENSMUSMus musculus (Mouse)
ENSRNORattus norvegicus (Rat)
ENSXETXenopus tropicalis (Xenopus)

类型前缀

前缀类型
Eexon
FMEnsembl protein family
Ggene
GTgene tree
Pprotein
Rregulatory feature
Ttranscript





UniProt


UniProt 中录入的数据都被分配了一个唯一的 entry name.

UniProtKB/Swiss-Prot entry name
UniProtKB/Swiss-Prot entry name 是最多有 11 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是最多五个便于记忆的蛋白质编号, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

蛋白质编号示例如下:

Code(X)Recommended protein nameGene name
B2MGBeta-2-microglobulinB2M
HBAHemoglobin subunit alphaHBA1
INSInsulinINS
CAD17Cadherin-17CDH17

物种编号示例如下:
CodeSpecies
BOVINBovine
CHICKChicken
ECOLIEscherichia coli
HORSEHorse
HUMANHomo sapiens
MAIZEMaize (Zea mays)
MOUSEMouse
PEAGarden pea (Pisum sativum)
PIGPig
RABITRabbit
RATRat
SHEEPSheep
SOYBNSoybean (Glycine max)
TOBACCommon tobacco (Nicotina tabacum)
WHEATWheat (Triticum aestivum)
YEASTBaker’s yeast (Saccharomyces cerevisiae)

UniProtKB/TrEMBL entry name
UniProtKB/TrEMBL entry name 是最多 16 位包含大写字母的字符串, 一般有着 "X_Y" 的形式, 其中 "X" 是 6 到 10 个字符组成的 accession number, "_" 是下划线, "Y" 是最多五个便于记忆的物种编号.

Accession Number
UniProtKB 的 Accession Number 相当于数据库的主键, 由 6 到 10 个大写字母或者数字组成. 其构成规律为: [OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}

实际上, accession number 是三种类型:


12345678910
[O P Q][0-9][A-Z 0-9][A-Z 0-9][A-Z 0-9][0-9]



[A-N R-Z][0-9][A-Z][A-Z 0-9][A-Z 0-9][0-9]



[A-N R-Z][0-9][A-Z][A-Z 0-9][A-Z 0-9][0-9][A-Z][A-Z 0-9][A-Z 0-9][0-9]
如果一个条目被分成两个, 或者多个条目合成一个, 则有相应的 accession number 继承规则.





HUGO Gene Nomenclature Committee
Gene Symbol

Gene Symbol 是用来表示基因的编码, 由大写字母构成, 或由大写字母和数字构成, 首字母均应该是字母.

如: GLA "galactosidase, alpha"; GLB "galactosidase, beta"; UGT1A1 "UDP glycosyltransferase 1 family, polypeptide A1" 再到 UGT1A13 代表了 13 个不同的 gene symbol.




NCBI

GenBank Accession Number
GenBank 的通用 accession number 通常是由一个大写字母加上 5 个数字的组合, 或者两个大写字母加上 6 个数字的组合.

RefSeq Accession Number
RefSeq 有一套特殊的 Accesion Number. 形式是: [A-Z]{2}[_][0-9]{6:}, 两个大写字母, 一个下划线, 6 个或更多的数字.

Accession 前缀类型说明
AC_GenomicComplete genomic molecule, usually alternate assembly
NC_GenomicComplete genomic molecule, usually reference assembly
NG_GenomicIncomplete genomic region
NT_GenomicContig or scaffold, clone-based or WGS
NW_GenomicContig or scaffold, primarily WGS
NS_GenomicEnvironmental sequence
NZ_GenomicUnfinished WGS
NM_mRNA
NR_RNA
XM_mRNAPredicted model
XR_RNAPredicted model
AP_ProteinAnnotated on AC_ alternate assembly
NP_ProteinAssociated with an NM_ or NC_ accession
YP_Protein
XP_ProteinPredicted model, associated with an XM_ accession
ZP_ProteinPredicted model, annotated on NZ_ genomic records
  • WGS: Whole Genome Shotgun sequence data, 鸟枪法测序.





Entrez ID


Entrez 是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. 由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识. R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换.





UCSC ID

UCSC ID 由小写字母和数字构成, 起始均为 uc, 然后是三位数字, 接着又是三位小写字母, 最后有小数点和数字构成版本号.
如: uc010qfk.3, uc010qfk.3.









上一篇:组学概念
下一篇:Edit Distance编辑距离(NM tag)- sam/bam格式解读进阶
回复

使用道具 举报

633

主题

1182

帖子

4030

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
4030
发表于 2016-10-19 17:39:16 | 显示全部楼层
重点的几个ID都被囊括了,很赞
你这个问题很复杂,需要打赏,请点击 http://www.bio-info-trainee.com/donate 进行打赏,谢谢
回复 支持 反对

使用道具 举报

0

主题

5

帖子

135

积分

注册会员

Rank: 2

积分
135
发表于 2016-10-24 19:36:40 | 显示全部楼层
好极了!!!
回复

使用道具 举报

0

主题

29

帖子

259

积分

中级会员

Rank: 3Rank: 3

积分
259
发表于 2017-2-17 10:05:24 | 显示全部楼层
真心不错,谢谢楼主分享
回复 支持 反对

使用道具 举报

2

主题

34

帖子

777

积分

高级会员

Rank: 4

积分
777
发表于 2017-4-14 12:00:59 | 显示全部楼层
本帖最后由 x2yline 于 2018-2-2 12:37 编辑

没有看到这个帖子之前我也自己稍微整理了一些, 查了一些发现已经有同学整理好了

0.tax_id代表物种的id, 如人类是9606
参考链接:https://www.ncbi.nlm.nih.gov/Tax ... x.cgi?lvl=0&id=9606

1. GeneID即Entrez Gene ID(是NCBI中用来连接各个不同数据库统一的基因标志符)
参考链接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013746/

2.Ensembl_gene_identifier是Ensembl ID里的一种, Enseml ID包括exon, protein family, gene, gene tree, protein, regulatory feature 和 transcript.

Ensembl ID的由5部分构成: ENS(species)(object type)(identifier).(version)
第一部分ENS代表这是一个Ensembl ID
第二部分代表物种, 如MUS代表小鼠(如果物种是人则此处为空)
第三部分代表ID的类型, 如G代表基因, T代表转录本, P代表蛋白, E代表外显子, S代表
第四部分是一个特殊的数字标志
第五部分代表版本号

如:ENSMUSG00000017167.6
我们知道这是一个Ensembl ID (ENS), 物种为小鼠(MUS), 代表一个基因(G), 并且这是第6个版本(.6).

参考链接:http://www.ensembl.org/Help/Faq?id=488

3.UniGene_cluster代表UNIGene数据库的条目
每一个UniGene Cluster包含代表单一基因的mRNA和EST序列, 包括基因表达的组织类型和图谱定位信息.
其格式为(species).(cluster ID number)
如Hs.437460
参考链接:https://www.ncbi.nlm.nih.gov/Uni ... ID=9606&SEARCH=TP53

4.Symbol即基因的官方名称
回复 支持 反对

使用道具 举报

0

主题

7

帖子

512

积分

高级会员

Rank: 4

积分
512
发表于 2018-5-4 10:31:49 | 显示全部楼层
水稻基因id类似Os和LOC怎么转换到ENTREZ id呢?
回复 支持 反对

使用道具 举报

2

主题

10

帖子

188

积分

注册会员

Rank: 2

积分
188
发表于 2019-4-22 19:35:25 | 显示全部楼层
soooob 发表于 2018-5-4 10:31
水稻基因id类似Os和LOC怎么转换到ENTREZ id呢?

请问解决了吗?求助
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-11-23 08:27 , Processed in 0.059455 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.