搜索
查看: 3446|回复: 0

教你提交Affymetrix芯片数据到GEO数据库

[复制链接]

365

主题

512

帖子

1713

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1713
发表于 2017-2-4 18:48:24 | 显示全部楼层 |阅读模式
基因表达数据库(Gene Expression Omnibus, GEO)是美国国立生物技术信息中心(National Center for Biotechnology Information, NCBI)的一个分支数据库,主要收录高通量的基因表达数据,是目前最大、最全面的公共基因表达数据资源。GEO又分为GEO DataSets数据库和GEO Profiles数据库,其中GEO DataSets数据库收录整个实验数据,而GEO Profiles数据库收录单个基因的表达谱数据。



GEO收录的数据类型有芯片数据、RT-PCR实验数据、高通量测序数据和基因表达系列分析(SAGE)数据(如上图所示),而今天我们主要介绍Affymetrix芯片数据的提交步骤。
一、首先需要注册一个NCBI账号:



二、登录NCBI,下拉框中选择GEO DataSets,点击Search,出现如下界面,选择Submit to GEO:



三、选择芯片类型,这里选择Affymetrix



四、然后界面会提示提交Affymetrix芯片数据所需的文件:一张metadata表,CEL文件(原始数据)和CHP文件(或是Processed data表)。



五、一般采用RMA算法进行数据标准化的,建议提交Processed data表。所以在当前页面下选择“3’or Whole Gene Expression Array – Matrix table option”下载表格进行填写。



六、该表格中包含5个子表:Metadata Template、Matrix Template、Metadata Example、Matrix Example1和Matrix Example2。前两个子表是需要自己填写的metadata表和Processed data表,后面三个子表是填写前两个子表时参考的示例。其中Metadata Template需要填写SERIES(标题、实验概述、作者)、SAMPLES(样本信息)和PROTOCOLS(实验信息和数据处理信息)这三部分,注意:样本名和CEL文件名要统一。

子表Matrix Template 需要填写标化后的芯片数据,如下图所示,每一行表示芯片上的一个探针(即ID_REF列为芯片探针ID),之后的每一列表示一个样本对应探针的信号值。注意:采用RMA算法标化后的数据是经过取log2对数处理的;样本的每个探针检出情况和检出P值也可以添加在对应样本列之后,详情见Matrix Example2。



七、表格填写完成并检查无误后,与Affymetrix芯片的CEL文件(原始数据)一起打包压缩,然后对压缩包命名,命名原则为方便GEO数据库的客服快速查找审核。然后选择Submit进行提交。


八、选择压缩文件,是否首次上传,是否立即发布。然后点击Submit提交,提交成功后,系统会向你注册时使用的邮箱发一封邮件,告知数据已成功提交。



上一篇:在线的PPI数据库-mentha
下一篇:【直播】我的基因组 36:这些可能是somatic突变的位点究竟...
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|手机版|小黑屋|生信技能树 ( 粤ICP备15016384号  

GMT+8, 2019-9-16 09:10 , Processed in 0.027493 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.